科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条

最新历史版本 :互联网档案馆 返回词条

  • 编辑时间: 历史版本编辑者:高兴
  • 内容长度:图片数:目录数:
  • 修改原因:
互联网档案馆(Internet Archive)成立于1996年,由 Alexa 创始人布鲁斯特·卡利Brewster Kahle)创办,是一个 Wayback machine 公益性质的计划。Internet Archive非正式中文名有“网站时光倒流机器”、“互联网档案馆”等,Internet Archive 定期收录永久保存全球网站可抓取信息,大网站比如 Google 会每天备份一次,每次收录入十个左右网页,一些小网站每年只收录几次。用户可以通过 Internet Archive 的“Take Me Back”对网站的发展与历史资料进行研究。

Internet档案馆(Internet Archive),又被称为时间回溯机(wayback machine),其成立于1996年,通过web机器人程序自动抓取或接受Alexa公司和其他机构的捐赠来获取数据。Waybackmachine保留了将近850亿个网页存档,可以重现几个月前甚至1996年某个网页的样子。她是一个非赢利性组织,宗旨是建立一个Internet网络图书馆,以便长期的研究之用,1999年末期,开始了对包括网页、文档、音频、视频等多种媒体形式的数据收集工作,现已经收藏了大概有2 PB(1 PB = 1024 TB) 的数据,并以每个月20 TB的速度增长。它能够“还原死链接”,当网页遇到404 Not Found的错误时,可以到Waybackmachine上检索历史网页以获得您需要的内容。
目录

[显示全部]

Archive.org:互联网档案馆回目录

 2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

  网站名称:Internet Archive(http://www.archive.org/index.php

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

互联网档案馆(The Internet Archive)回目录

(图)互联网档案馆
  自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。
  目前,“互联网档案计划”分为六大部分:
  一、电子书
  网址:http://www.archive.org/details/texts
  这个部分,我以前已经介绍过了,它专门收集公共领域的书籍和文档,任何人都可以免费下载。截至到今天,共有29万多种材料,堪称互联网上最好的公共领域图书搜索引擎。
  它主要收集英语书籍,但也包括少部分其他语种的书籍,比如朱熹的《论语集注》。
  二、网页
  网址:http://www.archive.org/web/web.php
  这个部分有个专门的名字,叫做”时光倒流机器“(Wayback Machine),它像收集旧报纸那样收集旧网页。举例来说,Yahoo!的首页就有5000多份档案,最早的可以回溯到1996年10月17日,最近的则是2007年8月30日。
  要将全世界的网页都保存下来,这需要多大的存储容量啊?根据2006年的统计,当时Wayback Machine的存储容量有2000T,然后还在以每月20T的速度增加。
  三、视频
  网址:http://www.archive.org/details/movies
  这个部分收集视频材料,你在其中可以找到动画片和电影。
  四、音频
  网址:http://www.archive.org/details/audio
  音频材料主要是有声书籍和音乐。
  五、软件
  网址:http://www.archive.org/details/software
  六、教育材料
  网址:http://www.archive.org/details/arsdigita
  这部分主要是美国大学课程,有视频和文字材料下载,相当于不去北美就可以上那里的课,比如麻省理工学院的《微分方程》和Naropa大学的《艾伦·金斯堡的诗歌》。

互联网档案馆:带我们回到过去回目录

互联网档案馆(Internet Archive),一个非营利网站,致力于为互联网上曾经存在过的网站建立数字图书馆。与线下实体图书馆一样的经营模式,面对研究者、历史学家、学者以及公众免费开放。

这是一个让人感到时光飞逝物是人非的网站。记录了很多曾经辉煌一时现在早已消失或者已经走向没落的网站,也记录了存活至今的网站们一次又一次改版。

网站首页主板块首行正中放置着网页搜索框,上面印着“时光机(Way Back Machine)”字样,输入网址,点击“带我回到过去”,用户便可以看到历史中的那个网页的模样。试着搜索 2000 年的新浪网。



下面附上今天新浪首页截图,变化真不小。


最初互联网档案馆只收藏网页,后来其将收藏范围扩展到视频、音乐、文本文档、IT项目等。

2012 年十月份时,互联网档案馆馆藏资料的体积约为 10 千万亿字节。当时这个非营利的数字图书馆正在筹集资金,希望能在年底前购买 4 千万亿字节的存储设备。互联网档案馆的馆藏资料以每月 190 T 字节的速度增加。也就是说,每 5.4 个月,档案馆便需要新增 1 千万亿字节的存储设备。

今年,互联网档案馆急速扩张,它与其他独立档案馆建立了合作关系,新增软件馆藏和文档馆藏,比如苹果I手册

“互联网档案馆”记录你一生的轨迹回目录

 个人网站、论坛发帖、电子邮件、博客、社交网络、微博、网络相册、网络视频……这些使得我们有幸成为第一代留下数字化生活记录的人。感谢正在兴起的廉价“云存储”技术,一个人存在于网络上的“数字余生”可以比其实际寿命长很多,甚至某种程度上可能达到永恒。
  域名以及用户名曾被高价转手,视频也可以被绑定广告,特别是在网游“安特罗皮亚世界”中一座虚拟国际空间站被一位玩家以33万美元买走、创下吉尼斯世界纪录后,越来越多的人不再怀疑虚拟商品的经济价值。而“数字遗产”不单关乎金钱,更重要的是身后的数字内容对逝者亲友来说具有巨大情感价值,也可能将成为子孙后代了解先祖的唯一直观途径。
  数字技术对人类生活的影响已无孔不入,多年前预言的“数字化生存”正在一步步成为现实。“数字遗产”问题日益受到关注更是表明,不仅是爱恨情仇的今生,人们在离开这个现实世界之后,在虚拟的存在里对数字技术的入侵依然是无处可逃。
  数字技术的迅速普及给人们的生活方式以及相关法律法规、伦理道德等带来一系列冲击,这方面的例子不胜枚举。更值得关注的是,数字技术给人类存在等人之所以为人的基础价值观带来了挑战,导致人的存在某种程度上被虚拟化、符号化、机器化甚至异化,正如网上流传的名句,“在互联网上没人知道你是一条狗”。这也正是“数字遗产”以及相伴的“数字余生”问题的核心所在。
  一些学者曾指出,数字技术的灵魂应该是人文精神。随着人的生存和死亡日益被数字化,尤其需要加强人文精神的构建,防止人成为数字技术的奴隶。从这个意义上说,面对“数字遗产”等数字技术发展带来的新课题,除了关注技术、法规和伦理等层面,更应重视人性关怀。解铃还须系铃人,破解“数字遗产”等争议的关键或许还是在人。
  “数字遗产”问题的复杂性在于,除了记录者本人、亲友或委托人,还涉及网络服务商。美国硅谷地区从2010年起开始举行名为“数字死亡日”的研讨会,重点讨论“数字遗产”规划问题。与会者比较一致的看法认为,各大互联网服务商不愿牵扯到死亡鉴定这一程序中。由于缺乏相关法律,目前也还没有一个关于“数字遗产”继承或清除的统一模式。
  以社交网站脸谱为例,任何人在出示用户的死亡证明或证实其死亡的新闻报道后,用户页面将立即转入悼念状态,但亲友只能获得管理悼念活动的权利,脸谱不提供账户密码。谷歌和雅虎的邮件服务都要求有法庭裁决许可才开始审核委托人的资格,亲人可能获得邮件内容,但也无法获得账户密码。此外,一些网站会对长时间未登录账户进行自动作废删除处理。由于申请法庭许可的时间很长,很多人在获得许可时,死者账户已被永久删除。
  对于网络游戏中的虚拟物品而言,网游公司的通行做法是,用户对其在游戏中扮演的角色、购买或获得的虚拟物品没有所有权,不能将这些内容赠与任何人,也不属于遗产分配范畴。
  目前,所谓“数字遗产”规划正成为互联网业的一个新兴领域。分析其中五花八门的服务,或许可以给全世界超过20亿网民提供规划“数字遗产”的思路。
  比如说,网民首先应有意识地建立自己的网络账户清单,并在此基础上对账户及其内容按“传承还是遗忘”进行分类。对于希望亲友保留的内容,再按商业价值和情感价值划分,有商业价值的内容按相关法律法规处理。而情感内容也许可以尝试目前一些相关的网络服务。美国一家名为“遗产保险柜”的网站做法是让用户将各种账户和密码信息封存在其网站上,并指定相关执行人,用户死亡后,网站将会把这些信息发送给指定的委托人。
  位于旧金山的“互联网档案馆”则从1996年起收藏网页、多媒体文件和图片等,用户可以考虑将自己的“数字遗产”捐献给类似档案馆,作为社会学等领域的研究资料。
  技术的发展也有望给规划“数字遗产”提供新的解决手段。网民不想让任何人看到某些内容最好的办法当然是删除,但如果在上传文件、图片等时能给这些内容加上一个“有效期”听起来也不错。德国一家名叫X-Pire的公司已推出一种软件,让用户向脸谱上传的照片在设定的有效期结束后就自动删除。
  但归根结底,规划“数字遗产”的最佳人选还是当事人自己。俄亥俄州立大学法学教授彼得·斯怀尔曾担任美国前总统克林顿隐私问题的首席顾问。他表示,不少商业网络公司的做法虽看似不近人情,但也可以理解。随着越来越多的个人生活以数字化的形式呈现,最简单的办法就是将账户密码告诉可以信任的人。
  一些专家也指出,要想留下一个良好的“数字余生”形象,最好是在身前规范自己的网络言行。提供微博服务的推特从2006年推出至今,用户在其平台上发布的所有公开内容都以数字化形式保存在美国国会图书馆中。美国“数字遗产”规划公司Entrustset创始人埃文·卡罗尔曾在接受媒体采访时说:“你在网络上留下的任何痕迹,从搜索记录到宿醉后在推特上的胡言乱语,都可能成为后人判断你的依据。”

互联网档案馆开始提供140万合法BT文件回目录

  互联网档案馆(The Internet Archive)开始提供140万图书电影、音乐和音乐会合法BT文件下载。电子前哨基金会(EFF)创始人John Gilmore说,互联网档案馆正帮助人们理解BitTorrent不只是短期内有效的东西。

  BitTorrent是帮助获取和分享大文件的极好方式,能由互联网档案馆之类的图书馆永久做种。互联网档案馆创始人Brewster Kahle认为这是图书馆和BT社区合作共生的大好机会。

互联网档案馆欲在2012年底前筹资购买3PB的存储空间回目录

非盈利数字图书馆和Wayback Machine的建造者——互联网档案馆(the Internet Archive),正试着在今年年底前筹集足够的资金,以购买4PB的存储空间。到目前为止,他们只达成了总目标的25%,也可以说是1PB的存储空间。

83113666

截止2012年10月,互联网档案馆大约保持着大约10PB级别的材料,如果服务按照每月约190TB的数据增长,那么接下去的两年只能存储很少的数据了(5.4个月≈1PB)。

无论你是否会对这项事业做出捐赠,重要的是你要记住:在过去16年里所记载的Web的进化,互联网档案馆扮演了难以置信的角色。(互联网档案馆也记录了苹果、亚马逊和Google等网站最初始的快照)

->互联网档案馆(Internet Archive)的捐赠链接  [编译自:TheNextWeb]

参考文献回目录


→如果您认为本词条还有待完善,请 编辑词条

标签: 互联网 档案 互联网档案 The Internet Archive wayback machine Internet档案馆