大数据开源时代-大数据- 科技百科 -互联网博物馆，你我的知识加油站

• 大数据迎来开源时代
• 大数据开源时代 Hadoop真能淘到金吗？

大数据迎来开源时代编辑本段 回目录

　伴随着交易型IT到交互型IT的过渡，过去几年中企业数据呈现爆炸性增长。社交媒体的兴起、智能终端的广泛使用等导致各种海量数据的快速产生，同时为我们开启了大数据时代。随着大数据时代的到来，我们也迎来了开源时代，为什么这么说呢？

　　谈及大数据，也不得不提云计算，在大数据+云计算时代里，开源变成了香饽饽，因为用户想要的是更多的自由，于是乎厂商就开始在自己的产品上贴上开放的标签，开始谈开源的好处，因为它曾承诺能够降低成本同时获得企业级的IT自由度。所以我们看到了Hadoop人气居高不下，这就是自由的号召力。

　　但是在开源风行的这几年，又有几家开源企业真的做的不错呢？小编就带大家盘点一下最近的开源热点吧!

　　Hadoop

　　Hadoop 无疑使目前最热的开源技术，因为它曾承诺能够降低成本同时获得企业级的IT自由度。最终，只有几个新兴企业投资(MySQL, JBoss)，但是对于大部分的企业而言，真正的价值来自IT供应商和内部的IT组织，利用开源为他们的软件项目提供原材料。开源越来越不关于销售，而是代码，这也正是设计它的目的所在。

　　Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。

　　Hadoop如此受欢迎是由原因的，它带来了诸多优点。Hadoop 是一个能够对大量数据进行分布式处理的软件框架，而且Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。可靠性体现在它是假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。高效性则体现在它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

　　OpenStack

　　OpenStack是一个美国国家航空航天局和Rackspace合作研发的云端运算‎软件，以Apache许可证授权，并且是一个自由软件和开放源代码项目。

　　自从2010年推出以来，OpenStack迅速赢得了惠普、英特尔和戴尔等云计算领域的IT公司的支持。OpenStack的贡献者喜欢把自己的工作称作增长速度最快的开源软件项目，参加者包括144家公司和2100多人。戴尔推出一个名为戴尔OpenStack云解决方案的软件包，把OpenStack与戴尔自己的服务器和软件结合在了一起。惠普也推出一个采用这个技术的测试版的公共云服务。

　　管理的托管提供商Rackspace的首席技术官约翰·安格斯(John Engates)说，为了帮助更广泛地应用，OpenStack正在配置许多新的功能，使这个软件更适合企业应用。一个名为“Keystone”的项目允许机构把OpenStack与自己的身份管理系统结合起来，或者与基于微软主动目录或者其它LDAP(轻型目录访问协议)的身份管理系统结合起来。此外，开发人员也正在为这个软件开发一个前端门户。Rackspace还将把这个项目剥离为一个完全独立的实体，希望它成为更多的云提供商的一个诱人的选择。

　　安格斯称，2011年将是这个产品打基础的一年。但是，我认为，2012年我们将真正开始利用这个基础在许多私有云和公共云中使用。

　　Apache

　　Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上。

　　Apache的诞生极富有戏剧性。当NCSAWWW服务器项目停顿后，那些使用NCSA WWW服务器的人们开始交换他们用于该服务器的补丁程序，他们也很快认识到成立管理这些补丁程序的论坛是必要的。就这样，诞生了Apache Group，后来这个团体在NCSA的基础上创建了Apache。

　　原本它只用于小型或试验Internet网络，后来逐步扩充到各种Unix系统中，尤其对Linux的支持相当完美。Apache有多种产品，可以支持SSL技术，支持多个虚拟主机。Apache是以进程为基础的结构，进程要比线程消耗更多的系统开支，不太适合于多处理器环境，因此，在一个Apache Web站点扩容时，通常是增加服务器或扩充群集节点而不是增加处理器。到目前为止Apache仍然是世界上用的最多的Web服务器，市场占有率达60%左右。世界上很多著名的网站如Amazon、Yahoo!、W3 Consortium、Financial Times等都是Apache的产物，它的成功之处主要在于它的源代码开放、有一支开放的开发队伍、支持跨平台的应用(可以运行在几乎所有的Unix、Windows、Linux系统平台上)以及它的可移植性等方面。

　　MySQL

　　MySQL是一个小型关系型数据库管理系统，开发者为瑞典MySQL AB公司。在2008年被Sun公司收购，2009年，SUN又被Oracle收购。

　　MySQL是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内。这样就增加了速度并提高了灵活性。MySQL的SQL“结构化查询语言”。SQL是用于访问数据库的最常用标准化语言。MySQL软件采用了GPL(GNU通用公共许可证)。由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。

　　与其他的大型数据库例如Oracle、DB2、SQL Server等相比，MySQL自有它的不足之处，如规模小、功能有限(MySQL Cluster的功能和效率都相对比较差)等，但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说，MySQL提供的功能已经绰绰有余，而且由于MySQL是开放源码软件，因此可以大大降低总体拥有成本。

　　目前Internet上流行的网站构架方式是LAMP(Linux+Apache+MySQL+PHP/Perl/Python)和LNMP(Linux+Nginx+MySQL+php/perl/Python)，即使用Linux作为操作系统，Apache和Nginx作为Web服务器，MySQL作为数据库，PHP/Perl/Python作为服务器端脚本解释器。由于这四个软件都是免费或开放源码软件(FLOSS)，因此使用这种方式不用花一分钱(除开人工成本)就可以建立起一个稳定、免费的网站系统。

　　Asterisk

　　Asterisk是一个开放源代码的软件VoIP PBX系统，它是一个运行在Linux环境下的纯软件实施方案。Asterisk是一种功能非常齐全的应用程序，提供了许多电信功能，能够把你的x86机器变成你自己的交换机，还能够当作一台企业级的商用交换机。Asterisk让人激动的事情是它在小企业预算可承受的范围内提供了商业交换机的功能和可伸缩性。你可以使用一台老式的奔腾3计算机，让你的机构看起来就同世界上的大企业一样。

　　事实上，Asterisk开源项目经过十多年的发展，已经不再单独局限于IP-PBX的应用。实际上，按照，Digium在其asterisk论坛上给出的说法，Asterisk软件已经是一个平台，不仅可以用于IP-PBX的开发，也可以用于中继网关(TG)，模拟电话适配器(ATA - Analog Telephone Adapter)，甚至 IP Phone 产品的开发。同时，Asterisk开源项目已经逐步发展称为一个 “统一通信” (UC)的解决方案。

　　Asterisk开源项目应用的另一个变化是在嵌入式领域的发展。虽然最初Asterisk是基于X86主机加PCI扩展板卡运行的。但目前，一些基于MIPS或ARM的CPU也已经都可以运行Asterisk。其中比较著名的有OpenWRT，在OpenWRT的最新版本中已经包含了对Asterisk 1.6/1.8 版本的支持，简单的编译后既可在MIPS或ARM的硬件平台上运行(参考Asterisk On MIPS论坛)。

大数据开源时代 Hadoop真能淘到金吗？编辑本段 回目录

　idc的大数据市场预测,大数据将会迎来大时代。分析公司表示截止到2015年大数据产值将达169亿美元。不过我们尚不明确,这个市场有多新,或者除了大数据新兴企业是否真正会刮起一个淘金热。

　　这是开源的炒作吗?按大数据的风格重演?

　　可能是的。开源在科技新闻界风行了好几年,因为它曾承诺能够降低成本同时获得企业级的it自由度。最终,只有几个新兴企业投资(mysql, jboss),但是对于大部分的企业而言,真正的价值来自it供应商和内部的it组织,利用开源为他们的软件项目提供原材料。开源越来越不关于销售,而是代码,这也正是设计它的目的所在。

　　如今,很多的风险投资家将大量的钱投入大数据新兴企业希望能够致富,一些人也确实做到了。但是请弄清楚:数据分析长久以来都是技术产业的一部分。

　　现在我们可能把它叫作“大数据”,但是它至少是未来20年来一个远瞻性的产业,一位博主这样写道。

　　把它叫作数据仓库、数据挖掘、又或者商业分析。随便你喜欢叫什么都可以。它并不新,甚至不一定是游戏规则的改变者,但是很多行业长期都需要优化数据收集和分析,所以技术提高就变得很有意义了。

　　然而,这里有两方面是新的大数据(也可以是开源)所要注意的:成本和规模。

　　这两个因素,可能比别的都重要,hadoop的惊人增长甚至让 “数据挖掘”失去了昔日的地位。hadoop使得收集和分析数据变得低成本、便于扩展,形成商业化的硬件。在过去,运行信贷业务的金融服务公司,不得不给ibm支付巨额支票用于专业的硬件和软件。

　　不会再这样了。hadoop有大量大众化的数据,将其转化为有竞争力的市场。

　　hadoop不是凭空出现的。各种其它的事情,例如包括提升基础设施、移动设备和社会数据,都将使与hadoop高度相关的人群受益。重要的是,在开源以前,hadoop和大数据移动的真正价值被企业内部所有,而没有支付给不同的供应商。是的,这对于hadoop新兴企业会有很好的出路,但是更大的赢者是内部的hadoop专业知识获得发展。

　　总之,大数据就是大。但是它并不新,创新的地方是通过处理大量数据而降低数据仓库的花费。与开源相似,大部分大数据的价值被内部团队所用,让他们知道如何将专业知识应用于他们所收集的数据。好消息是,一些企业将会从大数据的“淘金热”中致富。

　　更好的消息是,大部分富起来的企业还将继续使用hadoop和大数据技术

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。本词条对我有帮助0

大数据开源时代发表评论(0) 编辑词条

大数据迎来开源时代编辑本段 回目录

大数据开源时代 Hadoop真能淘到金吗？编辑本段 回目录

对词条发表评论

大数据开源时代 发表评论(0) 编辑词条

大数据迎来开源时代编辑本段回目录

大数据开源时代 Hadoop真能淘到金吗？编辑本段回目录

对词条发表评论

大数据开源时代发表评论(0) 编辑词条