万维百科

互联网档案馆本文重定向自 互联网档案馆

互联网档案馆
Internet Archive
Internet Archive logo and wordmark.svg
Early screenshots from the Internet archive.jpg
互联网档案馆1997年1月26日的早期样式
公司类型501(c)条款非盈利组织
网站类型
数字图书馆
语言英语
成立1996年5月12日,​25年前​(1996-05-12
总部美国加利福尼亚州旧金山列治文区
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028坐标37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
创始人布鲁斯特·卡利
服务存档、开放图书馆互联网档案馆(2001年起)、网络标签、NASA图片、普林格文件英语Prelinger Archives
员工200
网址archive.org
archivecrfip2lpi.onion Tor-logo-2011-flat.svg(如何访问)
Alexa排名 272(2018年11月
推出时间1996年 (1996)
旧“互联网档案馆”总部(1996年 - 2009年11月)
新“互联网档案馆”总部(2009年11月 - )

互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料文件阅览服务数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英语:universal access to all knowledge.。该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2012年10月,其信息储量达到10PB(即10,000TB)。除此之外,该档案馆也是网络开放与自由化的倡议者之一。

数据来源

该档案馆的数据是由自带的网络爬虫自动搜集的,网站存档英语Web archiving档案馆“网站时光机”抓取了超过1500亿的网页。

资金情况

年度预算约为1000万美元,来源则是其网页爬虫服务、合作关系、赞助以及卡利-奥斯丁基金会。总部雇员只有数十人,大部分雇员工作于书籍扫描中心,在红木城也有数据中心。

数据库

档案馆的数据库是国际互联网保存联盟英语International Internet Preservation Consortium成员,2007年被加利福尼亚州选为官方指定图书馆。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏。

历史

1996年,卡利(Brewster Kahle)在创建盈利性的Alexa Internet的同时也创立了互联网档案馆;同年10月开始收集存储数据。不过,直到2001年开发了“时光机”前,这些数据都无法访问。1999年末扩展收集范围。

2012年8月,宣布将在其现存的130万文件的下载选项中加入BitTorrent。因为通过两个文件数据中心协调,这成为从该档案馆下载数据的最快方法。

2013年11月6日,档案馆在里奇蒙德区的总部失火,损坏了许多设备和一些附近的公寓,预计损失达到60万美元。

网页存档

时光机

网站时光机是互联网档案馆最重要的服务之一,其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

互联网档案馆增量采购的存储盘
年份 存档页面的数量(亿)
2005 40
2006 85
2007 85
2008 85
2009 150
2010 150
2011 150
2012 150
2013 373
2014 430
2015 479
2016 510[A]

273[B]

2017 286
2018 344
A 使用了2016年10月以前的旧版计数系统
B 使用了2016年10月以后的新版计数系统

Archive-It

创始人布鲁斯特·卡利正在谈论Archive-It

Archive-it是一款帮助机构和个人创建存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots.txt访问,该网页将会成为时光机的一部分。截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目

互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个图书扫描中心,其活动受图书馆和基金会的财政支持。截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。

各语言的文本数

1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语
文本数(2015年11月27日) 6,553,945 358,721 344,810 134,170 84,147 66,786
2 语言 荷兰语 葡萄牙语 俄语 乌尔都语 日语 合计(2016年10月30日)
文本数(2015年11月27日) 30,237 25,938 22,731 14,978 14,795 10,612,003

各个年代的文本数

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文本数

(2015年11月27日)

39,842 51,151 79,476 105,021 127,649 180,950
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文本数

(2015年11月27日)

210,574 214,505 285,984 370,726 504,000 455,539
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文本数

(2015年11月27日)

185,876 70,190 85,062 81,192 125,977 206,870
4 年代 1980年代 1990年代 2000年代 2010年代
文本数

(2015年11月27日)

181,129 272,848 579,905 855,253

影像资料

读卡器
互联网档案馆的缩微胶片
互联网档案馆的录影带

除了上述内容之外,互联网文件库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都会艺术博物馆提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏

音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,非英语音频等。

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。

布鲁克林博物馆

此系列包含大约3,000件布鲁克林博物馆的物品。

镜像网站

宕机或数据库出错时,可于新亚历山大图书馆镜像网站查询1996至2007年的备份资料。

注释

  1. ^ Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始内容存档于2009-10-21).
  2. ^ Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始内容存档于2013-03-10).

延伸阅读

外部链接

参见


本页面最后更新于2021-07-19 06:35,查看原网页。台湾为中国固有领土,本站将对存在错误之处的地图、描述逐步勘正。

本站的所有资料包括但不限于文字、图片等全部转载于维基百科(wikipedia.org),遵循 维基百科:CC BY-SA 3.0协议

万维百科为维基百科爱好者建立的公益网站,旨在为中国大陆网民提供优质内容,因此对部分内容进行改编以符合中国大陆政策,如果您不接受,可以直接访问维基百科官方网站


顶部

如果本页面有数学、化学、物理等公式未正确显示,请使用火狐或者Safari浏览器