萬維百科

網際網路檔案館 本文重定向自 互联网档案馆

(重新導向自Archive-It)
網際網路檔案館
Internet Archive
Internet Archive logo and wordmark.svg
Early screenshots from the Internet archive.jpg
網際網路檔案館1997年1月26日的早期樣式
公司類型501(c)條款非營利組織
網站類型
數位圖書館
語言英語
成立1996年5月12日,​26年前​(1996-05-12
總部美國加利福尼亞州舊金山列治文區
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028座標37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
創始人布魯斯特·卡利
服務存檔、開放圖書館網際網路檔案館(2001年起)、網路標籤、NASA圖片、普林格檔案英語Prelinger Archives
員工200
網址archive.org
http://archivebyd3rzt3ehjpm4c3bjky
xv3hjleiytnvxcn7x32psn2kxcuid.onion
Tor network (如何存取)
推出時間1996年 (1996)
舊「網際網路檔案館」總部(1996年 - 2009年11月)
新「網際網路檔案館」總部(2009年11月 - )

網際網路檔案館(英語:Internet Archive)是美國的一個由Alexa創始人布魯斯特·卡利創辦於1996年的非營利性的、提供網際網路多媒體資料檔案閱覽服務數位圖書館,總部位於加利福尼亞州舊金山的列治文區,其使命是「普及所有知識」(英語:universal access to all knowledge.)。該「檔案館」提供的數字資料有如網站、網頁、圖形材料音樂、影片、音訊、軟體、動態圖像和數百萬書籍等的永久性免費儲存及取得的副本。 迄至2021年2月,其儲存了7280 億個網頁、3800萬本書和文字、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個影片(包括 200 萬個電視新聞節目)、400 萬張圖片 、790,000 個軟體程式。除此之外,該檔案館也是網路開放與自由化的倡議者之一。

資料來源

該檔案館的數據是由內建的網路爬蟲自動搜集的,網站時光機抓取了超過1500億的網頁。

資金情況

年度預算約為1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有資料中心。

資料庫

檔案館的資料庫是國際網際網路保留協會英語International Internet Preservation Consortium成員,2007年被加利福尼亞州選為官方指定圖書館。檔案館收集的資料是各種各樣的。截止2015年年初,網際網路檔案館共收錄了2400款MS-DOS遊戲。

歷史

1996年,卡利(Brewster Kahle)在建立盈利性的Alexa Internet的同時也創立了網際網路檔案館;同年10月開始收集儲存數據。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍。

2012年8月,宣布將在其現存的130萬檔案的下載選項中加入BitTorrent。因為通過兩個檔案資料中心協調,這成為從該檔案館下載數據的最快方法。

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多裝置和一些附近的公寓,預計損失達到60萬美元。

網頁存檔

時光機

網站時光機是網際網路檔案館最重要的服務之一,其名取自一部名為The Rocky and Bullwinkle Show英語The Rocky and Bullwinkle Show的美國卡通片。時光機允許人們去搜尋和存取其網頁存檔。在一些國家和地區,時光機這個術語的使用已經非常普遍,「時光機」和「網際網路檔案館」甚至開始被當做同義詞使用。

網際網路檔案館增量採購的儲存盤
年份存檔頁面的數量(億)
200540
200685
200785
200885
2009150
2010150
2011150
2012150
2013373
2014430
2015479
2016510[A]

273[B]

2017286
2018344
A 使用了2016年10月以前的舊版計數系統
B 使用了2016年10月以後的新版計數系統

Archive-It

創始人布魯斯特·卡利正在談論Archive-It

Archive-it是一款幫助機構和個人建立存檔的工具。一旦目標網站的URL被輸入並儲存且該網站允許網際網路檔案館所使用的robots.txt存取,該網頁將會成為時光機的一部分。截至2014年3月 (2014-03),Archive-it在美國的46個州和其他16個國家共有超過275個機構是其合作夥伴,共有超過74億個網頁的線上存檔。

收集書目

網際網路檔案館的「抄寫員」圖書掃描工作站

網際網路檔案館收集了世界各地的數位化圖書以及各大圖書館和文化遺產機構的特殊藏品。網際網路檔案館在5個國家經營著33個圖書掃描中心,其活動受圖書館和基金會的財政支援。截至2013年7月 (2013-07),檔案館共收集了440萬本書,每月的下載量超過1500萬。截至2008年11月 (2008-11),檔案館共有100萬個網路文字,總大小高達0.5PB,涵蓋了原始照相圖像、裁剪和歪斜的圖像、PDF檔案和原始OCR資料。

各語言的文字數

1語言英語法語德語西班牙語漢語阿拉伯語
文字數(2015年11月27日)6,553,945358,721344,810134,17084,14766,786
2語言荷蘭語葡萄牙語俄語烏爾都語日語合計(2016年10月30日)
文字數(2015年11月27日)30,23725,93822,73114,97814,79510,612,003

各個年代的文字數

1年代1800年代1810年代1820年代1830年代1840年代1850年代
文字數

(2015年11月27日)

39,84251,15179,476105,021127,649180,950
2年代1860年代1870年代1880年代1890年代1900年代1910年代
文字數

(2015年11月27日)

210,574214,505285,984370,726504,000455,539
3年代1920年代1930年代1940年代1950年代1960年代1970年代
文字數

(2015年11月27日)

185,87670,19085,06281,192125,977206,870
4年代1980年代1990年代2000年代2010年代
文字數

(2015年11月27日)

181,129272,848579,905855,253

影像資料

讀卡機
網際網路檔案館的縮微膠片
網際網路檔案館的錄影帶

除了上述內容之外,網際網路檔案庫還收集了大量的數位媒體,這些數位媒體均符合美國公共領域CC授權協定。這些媒體檔案均會根據媒體類型(moving images、audio、text、etc.)被組織成集合,並根據各項標準被分入子集合。例如大都會藝術博物館提供的相關資料就會被分入一個子集,目前該集合相關資料的數量已經超過了140,000個。每個主集合都含有一個「社群」子集合(以前被稱為「開源」)用於儲存公眾的貢獻。

音訊收藏

音訊檔案包括音樂,有聲讀物,新聞廣播,舊時廣播的節目和各種其他音訊檔。該系列中有超過200,000個免費數字錄音。子集包括有聲讀物和詩歌,Podcast,非英語音訊等。

Live Music Archive子集包括來自獨立音樂家的超過170,000個音樂會錄音,以及更為成熟的藝術家和音樂合奏,以及關於錄製他們的音樂會的寬鬆規則,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon還允許網際網路檔案館收藏他父親Warren Zevon的音樂會錄音。Zevon系列從1976年至2001年不等,包含126場音樂會,包括1,137首歌曲。

布魯克林博物館

此系列包含大約3,000件布魯克林博物館的物品。

鏡像網站

宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料。

註釋

  1. ^ Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始內容存檔於2009-10-21).
  2. ^ Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始內容存檔於2013-03-10).

延伸閱讀

外部連結

參見


本頁面最後修訂於2022-11-27 15:38,點擊更新本頁查看原網頁

本站的所有資料包括但不限於文字、圖片等全部轉載於維基百科(wikipedia.org),遵循 維基百科:CC BY-SA 3.0協議


頂部

如果本頁面有數學、化學、物理等公式未正確顯示,請使用Firefox瀏覽器或者Safari瀏覽器