網站時光機
![]() | |
網站類型 | 存檔 |
---|---|
持有者 | 網際網路檔案館 |
網址 | web![]() |
註冊 | 可選 |
推出時間 | 2001年10月24日 |
現狀 | 活躍 |
程式語言 | Java、Python |
網站時光機(英語:Wayback Machine)是全球資訊網的數位檔案館,由位於美國加利福尼亞州舊金山的非營利組織網際網路檔案館建立,亦為該組織最重要的服務之一。它允許使用者「回到過去」,檢視過去的網站的樣子。其創始人布魯斯特·卡利和Bruce Gilliat開發了網站時光機,旨在透過儲存已失效網頁的存檔副本,以「普及所有知識」(universal access to all knowledge)。自2001年推出以來,已有4,520多億頁面加入檔案館。
歷史
網站時光機由網際網路檔案館的創始人布魯斯特·卡利和Bruce Gilliat於2001年推出,以解決網站在維護或關閉時無法檢視內容的問題,此外還能檢視網頁的歷史存檔版本,創始人Kahle和Gilliat希望以此能為整個網際網路「普及所有知識」(universal access to all knowledge)。
Wayback Machine這個名稱源於動畫片The Rocky and Bullwinkle Show中的「WABAC機器」(發音為Way-back),這是一個時間旅行裝置。在動畫片的皮博迪的不可能的歷史一集中,角色使用這一機器來見證、參與甚至改變歷史上的著名事件。
網站時光機於1996年開始存檔快取網頁,目標是在五年後將服務公之於眾。從1996年到2001年,這些資訊儲存在數位磁帶上,Kahle偶爾允許研究人員和科學家使用資料庫。2001年,網際網路檔案館成立五周年時,加州大學伯克利分校舉行了網站時光機的公布儀式。當網站時光機推出時,它已經存檔了超過100億個頁面。
如今,資料儲存在網際網路檔案館的大型Linux節點群集上。有時會重新存取並存檔網站的新版本(參見下文技術細節)。如果網站允許網路時光機「爬蟲索引」網站並儲存資料,則也可以透過在搜尋方塊中輸入網站的URL手動擷取網站。
技術細節
網路時光機已經開發了軟體用於「爬蟲索引」並下載所有可公開存取的全球資訊網頁面、Gopher階層、Usenet公告板系統和可下載軟體。這些「爬蟲」收集的資訊並不能包括網際網路上所有可用的資訊,因為許多資料受發布者限制或儲存在不可存取的資料庫中。為了克服部分快取網站的不一致性,2005年,網際網路檔案館開發了Archive-It.org,使得機構和內容創作者可以自願收集和儲存數位內容,並建立數位檔案館。
爬蟲索引來自各種來源,其中一些是從第三方匯入的,而另一些是由存檔內部生成的。自2010年以來,「Worldwide Web Crawls」一直在執行,並擷取全球網站。
快照擷取的頻率因網站而異。「Worldwide Web Crawls」中的網站包含在「爬網列表」(crawl list)中,每次爬網都會將網站存檔一次。爬網可能需要數月甚至數年才能完成,具體取決於其大小。例如,"Wide Crawl Number 13"從2015年1月9日開始,於2016年7月11日完成。但是,一次可能有多個爬網正在進行,並且一個站點可能包含在多個爬網列表中,因此,對站點進行爬網的頻率有很大的不同。
儲存容量的增加
隨著多年來技術的發展,網站時光機的儲存容量不斷增加。2003年,僅經過兩年的公開存取,網站時光機便以每月12兆位元組(TB)的速度增長。資料儲存在由網際網路檔案館的工作人員客製化設計的PetaBox機架系統上。第一個100兆位元組(TB)的機架於2004年6月全面投入使用,不過很快就發現,這些儲存空間遠遠不夠。
網際網路檔案館在2009年其客製化的儲存體系結構遷移到Sun開放式儲存,並在Sun系統的加利福尼亞園區的Sun模組化資料中心中代管了一個新的資料中心。截至2009年[update],網站時光機包含大約3拍位元組(PB)的資料,並以每月100兆位元組(TB)的速度增長。
2013年1月,該公司宣布了2400億個URL的突破性里程碑。2013年10月,該公司宣布了「儲存頁面」(Save a Page)功能,允許任何網際網路使用者存檔URL的內容。這成為了代管惡意二進位檔案的服務濫用威脅。
截至2014年12月[update],網站時光機存有4350億個網頁,將近9拍位元組(PB)的資料,並且每周增長約20兆位元組(TB)。
據報導,截至2016年7月[update],網站時光機存有約15拍位元組(PB)的資料。
截至2018年9月[update],網站時光機存有超過25拍位元組(PB)的資料。
成長
2013年10月至2015年3月,該網站的全球Alexa排名從163變為208。2019年3月,該排名為244.
年份 | 已存檔的頁面數(單位:億) |
---|---|
2005 | 400 |
2008 | 850 |
2012 | 1,500 |
2013 | 3,730 |
2014 | 4,000 |
2015 | 4,520 |
網站排除方針
歷年來,網站時光機一直尊重機器人排除標準(robots.txt)以決定一個網站是否會受爬網;或者如果已經爬網了,它的存檔是否可以公開檢視。透過使用robots.txt,網站所有者可以選擇登出網站時光機。如果站點阻止了網頁存檔,則域中以前存檔的任何頁面也將立即顯示為不可用。此外,網際網路檔案館表示,「有時網站所有者會直接聯絡我們,要求我們停止對網站進行爬網或存檔。我們會遵守這些請求。」
2017年4月17日,有報導稱,一些網站已經倒閉,成為暫停的域(Domain parking)。它們透過使用robots.txt把自己排除在搜尋引擎之外,導致時光機無意排除這些網站。
網站時光機的網站排除方針(Website exclusion policy)部分基於2002年加利福尼亞大學伯克利分校資訊管理和系統學院發布的《管理刪除請求和維護檔案完整性的建議》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建議賦予網站所有者阻止存取網站存檔的權利。網站時光機遵守了這一政策,以避免昂貴的訴訟。
網站排除方針於2017年開始放寬,當時它停止遵循robots.txt,並對美國政府和軍方的網站進行爬網和顯示網頁。截至2017年4月,網站時光機更廣泛地忽略了robots.txt,而不僅對於美國政府網站。
用途
自2001年網站時光機公開發布以來,學者們一直在研究它的儲存和收集資料的方式,以及其存檔中實際包含的頁面。截至2013年,學者們已經在網站時光機上撰寫了大約350篇文章,其中大部分來自資訊科技、圖書館學和社會科學領域。社會科學學者們使用網站時光機分析了從90年代中期至今網站的發展對公司的成長的影響。
當網站時光機存檔一個頁面時,它通常會包含大多數超連結,以使這些連結遭網際網路的不穩定性輕易破壞時,能夠仍然保持活動狀態。印度的研究人員研究了網站時光機儲存線上學術出版物中的超連結的能力的有效性,發現它儲存了略多於一半的超連結。
有記者使用網站時光機檢視失效的網站、過時的新聞報導以及被更改的網站內容。其內容已用於追究政治家的責任,揭穿爭論場合上的謊言。2014年,烏克蘭東部分裂地區叛軍頓涅茨克人民軍領導人伊戈爾·斯特列爾科夫的社群媒體的存檔頁面顯示,他吹噓自己的部隊擊落了一架疑似烏克蘭軍用飛機,後來才知道這架飛機實際上是一架馬航民航客機(馬來西亞航空17號班機),之後,他刪除了發布的這篇文章,並指責烏克蘭軍方擊落了這架飛機。2017年,在社群網站reddit的討論中,有人表示存取過archive.org 並發現白宮網站刪除了所有提及氣候變化的內容,對此,一位使用者評論道:「科學家有必要在華盛頓舉行一次遊行」,此事成為了為科學遊行(March for Science)舉行的原因。
存在局限
2014年,從抓取網站到它可以在網站時光機上檢視之間存在6個月的延遲時間。目前,該延遲時間為3-10小時。網站時光機僅提供有限的搜尋功能,它的「站點搜尋」(Site Search)功能允許使用者根據描述站點的詞彙來尋找站點,而非網頁本身的詞彙。
由於網路爬蟲的限制,網站時光機無法完全存檔互動式網頁,例如Flash平台和使用JavaScript和漸進式網路應用程式編寫的表單,因為這些功能需要與宿主網站互動。網站時光機的網路爬蟲很難提取任何未使用HTML或其變形編碼的內容,這通常會導致超連結損壞和圖像遺失。因此,網路爬蟲無法存檔不包含指向其他頁面的連結的「孤立頁面」(Orphan page)。由於其爬蟲程式僅能根據其預設的深度限制追蹤有限數量的超連結,因此它無法存檔每個頁面中的每個超連結。
法律證據
民事訴訟
Netbula LLC v. Chordiant Software Inc.
在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出動議,要求Netbula禁用其網站上的robots.txt檔案,因為該檔案導致網站時光機追溯性地復原了對Netbula網站先前版本的存檔的存取權限,Chordiant相信這些頁面中存在有利於訴訟的材料。
Netbula反對該動議,理由是被告要求更改Netbula的網站,他們應該直接為這些頁面直接傳喚網際網路檔案館。然而,網際網路檔案館的一名雇員發表了宣誓聲明,支援Chordiant的動議,表示在「不對其運營造成大量負擔,費用和干擾」的情況下,無法透過任何其他方式存取網頁。
美國加利福尼亞北區聯邦地區法院聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)駁回了Netbula的論點,並命令他們暫時禁用robots.txt阻止程式,以使Chordiant可以檢索他們想要的存檔頁面。
波蘭電視台
在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名訴訟當事人試圖使用網站時光機的檔案作為有效證據的來源,此舉可能屬於首次。波蘭電視台是TVP Polonia的供應商,EchoStar運營Dish Network。在審判程式之前,EchoStar表示,它打算提供網站時光機快照,作為波蘭電視台網站過去內容的證據。
參閲
- 網路存檔網站列表
- 公共領域音樂
- 網頁存檔
- 數位圖書館
|
|
外部連結
- 官方網站
- 互联网档案馆的使用条款,隐私政策和版权政策. archive.org. 2014-12-31 [2020年6月20日]. (原始內容存檔於2020年6月6日).
- 搜索或保存网页的基本用户操作指南. WikiHow.com. [2020-06-20]. (原始內容存檔於2020-03-15) (英語、德語、西班牙語、法語及義大利語).
- Internet history is fragile. This archive is making sure it doesn't disappear [網際網路歷史是脆弱的。這個檔案正在確保它不會消失]. San Francisco: PBS Newshour. [2020-06-20]. (原始內容存檔於2021-04-08).
鏡像網站
- 网站时光机的官方镜像网站. 新亞歷山大圖書館. [2020-06-20]. (原始內容存檔於2012-11-28). 1996-2007年 (截至2019年[update]).
實用程式
- Wayback. SourceForge.net. [2020-06-20]. (原始內容存檔於2011-09-16).
- 从网站时光机检索备份的工具. github.com. [2018-05-03]. (原始內容存檔於2021-05-03).
- 网站时光机在线下载器. [2018-03-20]. (原始內容存檔於2018-03-21) (英語及波蘭語).