網際網路檔案館 本文重定向自 互联网档案馆
![]() | |
![]() 網際網路檔案館1997年1月26日的早期樣式 | |
公司類型 | 501(c)條款非營利組織 |
---|---|
網站類型 | 數位圖書館 |
語言 | 英語 |
成立 | 1996年5月12日 |
總部 | 美國加利福尼亞州舊金山列治文區 37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W座標:37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W |
創始人 | 布魯斯特·卡利 |
服務 | 存檔、開放圖書館、網際網路檔案館(2001年起)、網路標籤、NASA圖片、普林格檔案 |
員工 | 200 |
網址 | archive http://archivebyd3rzt3ehjpm4c3bjky xv3hjleiytnvxcn7x32psn2kxcuid.onion ![]() |
推出時間 | 1996年 |
網際網路檔案館(英語:Internet Archive)是美國的一個非營利性的、提供網際網路多媒體資料檔案閱覽服務的數位圖書館。網際網路檔案館由Alexa創始人布魯斯特·卡利於1996年創辦,總部位於加利福尼亞州舊金山的列治文區,其使命是「普及所有知識」(英語:universal access to all knowledge.)。該網站提供的數位資料有如網站、網頁、圖形材料音樂、影片、音訊、軟體、動態圖像和數百萬書籍等的永久性免費儲存及取得的副本。 迄至2021年2月,該網站儲存了7280 億個網頁、3800萬本書和文字、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個影片(包括 200 萬個電視新聞節目)、400 萬張圖片、790,000 個軟體程式。除此之外,網際網路檔案館也是網路開放與自由化的倡議者之一。
資料來源
該檔案館的資料由內建的網路爬蟲自動搜集,網站時光機抓取了超過1500億的網頁。
資金情況
網際網路檔案館年度預算約為1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有資料中心。
資料庫
檔案館的資料庫是國際網際網路保留協會成員,2007年被加利福尼亞州選為官方指定圖書館。檔案館收集的資料是各種各樣的。截止2015年年初,網際網路檔案館共收錄了2400款MS-DOS遊戲。
歷史
1996年,卡利(Brewster Kahle)在創立盈利性的Alexa Internet的同時也創立了網際網路檔案館;同年10月開始收集儲存資料。不過,直到2001年開發了「時光機」前,這些資料都無法存取。1999年末擴展收集範圍。
2012年8月,網際網路檔案館宣布將在其現存的130萬檔案的下載選項中加入BitTorrent。因為透過兩個檔案資料中心協調,這成為從該檔案館下載資料的最快方法。
2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多裝置和一些附近的公寓,預計損失達到60萬美元。
2009年至今的總部,原舊金山基督教科學派第四教會
網頁存檔
時光機
網站時光機是網際網路檔案館最重要的服務之一,其名稱取自一部名為The Rocky and Bullwinkle Show的美國卡通片。時光機允許人們去搜尋和存取其網頁存檔。在一些國家和地區,時光機這個術語的使用已經非常普遍,「時光機」和「網際網路檔案館」甚至開始被當做同義詞使用。
年份 | 存檔頁面的數量(億) |
---|---|
2005 | 40 |
2006 | 85 |
2007 | 85 |
2008 | 85 |
2009 | 150 |
2010 | 150 |
2011 | 150 |
2012 | 150 |
2013 | 373 |
2014 | 430 |
2015 | 479 |
2016 | 510[A] 273[B] |
2017 | 286 |
2018 | 344 |
A 使用了2016年10月以前的舊版計數系統 |
B 使用了2016年10月以後的新版計數系統 |
Archive-It
Archive-it是一款幫助機構和個人建立存檔的工具。一旦目標網站的URL被輸入並儲存且該網站允許網際網路檔案館所使用的robots.txt存取,該網頁將會成為時光機的一部分。截至2014年3月[update],Archive-it在美國的46個州和其他16個國家共有超過275個機構是其合作夥伴,共有超過74億個網頁的線上存檔。
收集書目
網際網路檔案館收集了世界各地的數位化圖書以及各大圖書館和文化遺產機構的特殊藏品。網際網路檔案館在5個國家經營著33個圖書掃描中心,其活動受圖書館和基金會的財政支援。截至2013年7月[update],檔案館共收集了440萬本書,每月的下載量超過1500萬次。截至2008年11月[update],檔案館共有100萬個網路文字,總大小高達0.5PB,涵蓋了原始照相圖像、裁剪和歪斜的圖像、PDF檔案和原始OCR資料。
各語言文字數
1 | 語言 | 英語 | 法語 | 德語 | 西班牙語 | 漢語 | 阿拉伯語 |
---|---|---|---|---|---|---|---|
文字數(2015年11月27日) | 6,553,945 | 358,721 | 344,810 | 134,170 | 84,147 | 66,786 | |
2 | 語言 | 荷蘭語 | 葡萄牙語 | 俄語 | 烏爾都語 | 日語 | 合計(2016年10月30日) |
文字數(2015年11月27日) | 30,237 | 25,938 | 22,731 | 14,978 | 14,795 | 10,612,003 |
各年代文字數
1 | 年代 | 1800年代 | 1810年代 | 1820年代 | 1830年代 | 1840年代 | 1850年代 |
---|---|---|---|---|---|---|---|
文字數 (2015年11月27日) | 39,842 | 51,151 | 79,476 | 105,021 | 127,649 | 180,950 | |
2 | 年代 | 1860年代 | 1870年代 | 1880年代 | 1890年代 | 1900年代 | 1910年代 |
文字數 (2015年11月27日) | 210,574 | 214,505 | 285,984 | 370,726 | 504,000 | 455,539 | |
3 | 年代 | 1920年代 | 1930年代 | 1940年代 | 1950年代 | 1960年代 | 1970年代 |
文字數 (2015年11月27日) | 185,876 | 70,190 | 85,062 | 81,192 | 125,977 | 206,870 | |
4 | 年代 | 1980年代 | 1990年代 | 2000年代 | 2010年代 | ||
文字數 (2015年11月27日) | 181,129 | 272,848 | 579,905 | 855,253 |
影像資料

除了上述內容之外,網際網路檔案庫還收集了大量的數位媒體,這些數位媒體均符合美國公共領域或CC授權協定。這些媒體檔案均會根據媒體類型(moving images、audio、text、etc.)被組織成集合,並根據各項標準被分入子集合。例如大都會藝術博物館提供的相關資料就會被分入一個子集,目前該集合相關資料的數量已經超過了140,000個。每個主集合都含有一個「社群」子集合(以前被稱為「開源」)用於儲存公眾的貢獻。
音訊收藏
音訊檔案包括音樂、有聲讀物、新聞廣播、舊時廣播的節目和各種其他音訊檔。該系列中有超過200,000個免費數位錄音。子集包括有聲讀物和詩歌、Podcast、非英語音訊等。
Live Music Archive子集包括來自獨立音樂家的超過170,000個音樂會錄音,以及更為成熟的藝術家和音樂合奏,以及關於錄製他們的音樂會的寬鬆規則,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon還允許網際網路檔案館收藏他父親Warren Zevon的音樂會錄音。Zevon系列從1976年至2001年不等,包含126場音樂會,包括1,137首歌曲。
布魯克林博物館
此系列包含大約3,000件布魯克林博物館的物品。
鏡像網站
宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料。
延伸閱讀
- Kahle, Brewster. Archiving the Internet. Scientific America. November 1996.
- Kahle, Brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06.
- Jill Lepore. The Cobweb. The New Yorker. 2015-01-26 [2016-10-30]. (原始內容存檔於2015-01-25).
- Ringmar, Erik. Liberate and Disseminate. Times Higher Education Supplement. 2008-04-10 [2016-10-30]. (原始內容存檔於2012-12-02).
外部連結
- 官方網站
- 官方部落格
- 網際網路檔案館的Twitter帳戶 (英文)
- Internet Archive Mirror(頁面存檔備份,存於網際網路檔案館)於埃及亞歷山大圖書館
- Netlabels release collection
- The Other Minds Archive – 來自radiom.org(頁面存檔備份,存於網際網路檔案館)的新音樂資源
- Web Archiving at archive.org(頁面存檔備份,存於網際網路檔案館),關於網際網路檔案館運營的詳情
- Pictures and descriptions of the Wayback Machine hardware in 2003 (prior to the Petabox), with cost information
- Current Petabox storage hardware
- Earliest known website of Internet Archive (www.archive.org) from 1997
- Early websites from 1996
- brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06 [2013-11-07].
- 互联网真能帮人类历史存档吗?. 騰訊網. 2015-01-24 [2015-09-04]. (原始內容存檔於2016-09-15) (中文(中國大陸)).
參見
- 網際網路檔案館存檔列表
- 公共領域音樂
- 網頁存檔
- 數位圖書館
|
|
|