コンテンツマーケティング

杉岡彦士のBLOG

WayBack Machine サービスリニュアル

Posted on Oct 28, 2013 in コンテンツマーケティング, ツール |

wayback logo
Internet Archiveが提供するWayBack Machine
インターネットに携わる方々であれば、何度となくご覧になられたかと思います。
過去にさかのぼって特定のURLのサイトの変遷を見ることができます。
世界中のウェブ情報を代表とするさまざまなデジタル情報をアーカイブしている非営利法人です。1996年にBrewster Kahle氏によって設立されました。
現在は、約3600億URLのサイトをアーカイブしているようです。
https://archive.org/web/

例えば、現在の弊社コーポレートサイト
facebook・twitter等のSMM(ソーシャルメディアマーケティング)サービスサイト   facebook・twitterの導入・運用・解析ならグローバルリンクジャパンにお任せ下さい。
http://www.smmj.jp/

2002年7月、創業してから約半年後の事ですが、その時からアーカイブが始まったようです。
その時のデザインがこれ。写真が切れていて、なんのこっちゃわかりませんが、ロゴも昔のもの。
何屋かわからんままにもがいていたことを思い出す。

GLOBAL LINK JAPAN
https://web.archive.org/web/20020717232738/http://www.globallink-j.com/

そこから 5年後の2007年8月。
そういや、こんなデザインでしたわ。

SEO・SEMのことならお任せ下さい-GLOBAL LINK JAPAN, inc.
https://web.archive.org/web/20070809112103/http://www.semj.com/
この2007年当時の私のBlogへのリンクバナーをクリックすると、その当時のBlogに飛んでくれます。

こんな感じ。
ご覧いただいたように、リンク先もしっかりと保存してくれていて、サイトの構造やリンク先がほぼほぼそのまま残っています。

こうやって、昔の変遷をたどったり、悪いやつが以前どんな無茶なことをブログやサイトで言っていたかw を調べたり、どこにリンクを貼ってたなんかがよくわかります。
日本の国会図書館にも正式に採用されたり、アメリカの最高裁でも正式な証拠提出としても採用されています。
http://warp.da.ndl.go.jp/contents/reccommend/world_wa/world_wa02.html

さて、そのWayBack Machineですが、先日25日に大幅にサービスがリニュアルされました。
ざっくりと情報をまとめると次のようなリニュアル項目になります。

■Up to Date.(アーカイブされてた情報が早く公開されます。)
今までサイトをクロールしてから、反映するのに数か月かかっていたようですが、これからは1時間で反映されるようになりました。

■Save a page.(アーカイブするリクエストを受け付けてくれます。)
上記同様、アーカイブするのに時間短縮ができることと、アーカイブされた場所のURLを申請したその場で教えてくれます。
もちろん、アーカイブされれば、世界中のだれもが閲覧できるようになります。
Internet Archive  Wayback Machine


コンテンツマーケティング   杉岡彦士のBLOG

■Do we have it?
同時に、Availablity AIPという新しいAPIを開発した模様です。
WayBackのデータを簡単に引き出せるAPIです。
おそらく今までになかったようですが、使い方は皆様のアイデア次第。
見本も公開しています。
http://www.archive-it.org/

■Fixing broken links.
waybackは、「世界の百科事典」として、Googleよりずっと前から、youtubeよりもずっと前から、wikiよりずっと前から、インターネットをいじりだした人よりずっと前からアーカイブを続けています。
それに伴い、「無くなったページ」を補完して、なるべく存在していたママの物をアーカイブしていきたいと思っているようです。
一言でいうと、「リンク切れ撲滅運動!!」それを目指すために、下記団体との連携を強化しています。

●Wordpress.com(ワードプレス)
ワードプレスと連携をして、ワードプレスで作られたページはすべて自動的にアーカイブされるようになったようです。
それにともない、Broken Link Checkerを開発し、ワードプレスのプラグインとして貴見込まれ、リンク切れがあった場合にサジェスチョンしてくれるようになります。もちろん、それによって修正されたリンクは自動的にwaybackに保存されます。

●Wikipedia.org
wikiに書かれている全ての記事や外部リンク先にクローラーを走らせ、保存しています。(1日URL500万件分)。
また、wikiからリンクしている外部サイトが消失してしまい、リンク切れになったウェブサイトは自動的に保存したウェブサイトのURLに自動的に変更されるような仕組みになるようです。(通常のアーカイブ方法ではすでにこうなっています。例えば、以前使っていたwww.globllink-j.com(現在はメールアドレスのみ。)のURLも、2013年5月のアーカイブを見ると、smmj.jpの物になっています。

●Every webmaster.(世界中のウェブマスター達と)
世界中のウェブマスターに、404ページに下記タグを追加することをお願いしています。
—————————————
404
—————————————
ページが無くなってnot foundになった場合、下記インフォメーションが出てきて、「無くなったのはこれですよ!」とwaybackのアーカイブに飛んでくれます。
wbss1-e1336587805371

何かと、前どうだったかなぁ? と思った時に使うサイトです。
無くなってしまったサイトやブログもここで見つかる可能性大です。
テクノロジーしかり、理念しかり、非営利団体ですが、WP、wikiともどもwaybackはものすごい団体だと昔から思っています。


参考文献:Alexis Rossi
Internet Archive Blogs
“Fixing Broken Links on the Internet”
http://blog.archive.org/2013/10/25/fixing-broken-links/