科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条

最新历史版本 :大数据来袭 返回词条

  • 编辑时间: 历史版本编辑者:明天
  • 内容长度:图片数:目录数:
  • 修改原因:

大数据已经成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。据市场研究公司IDC统计,未来10年里预计数字信息总量将在2009 年到2020年期间增长44倍……

  大数据已经成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。据市场研究公司IDC统计,未来10年里预计数字信息总量将在2009 年到2020年期间增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。与此同时,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。一项由UnisphereResearch对531名独立Oracle用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击,其中发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。

  有专家认为,大数据的推动因素主要是来自一些特大型公司,如谷歌、Youtube等。这些公司需要以非常优化的方式分析数据和让计算与存储配合工作。另外,一些来自健康医疗、地理空间影像和数字媒体等行业的各种大数据,很显然,这些数据到不一定有多大,但是处理这些数据集通常要分配到几个系统耗费超过24个小时的时间才能完成。

  IT巨头纷纷涉足大数据

  事实上全球互联网巨头(EMC、惠普、IBM、微软)都已经意识到“大数据”时代的到来,数据的重要意义,这些IT巨头们都纷纷通过收购“大数据”的相关厂商来进行技术的整合,可见对“大数据”的重视程度。

  EMC公司全球高级副总裁、大中华区总裁叶成辉在接受记者采访时表示:大数据目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。

  大数据时代即将来临

  ESG中国区总经理兼高级分析师王丛表示,大数据这一领域将会有一些新技术推出,在未来1-2年内,预计会不断涌现能处理大型非结构化数据的技术。王丛认为,目前北美厂商仍走在全球的前列,而中国国内的厂商目前仍主要在考虑怎么样生产存储和硬件设备,而没有考虑到全面的解决方案。EMC、IBM收购这些公司的目的是整合整个解决方案,让它在IT上是透明的,进一步靠近存储、靠近数据。

  对于大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师CarlOlofson认为,这三大因素的结合便催生了大数据。

  Gartner曾经有报告指出,有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

目录

企业如何应对大数据挑战回目录

     大数据是当今科技行业发展速度最快的领域之一。大数据具有前所未有的大量化、快速化和多样化三大特点,这些是许多新技术背后的驱动力,这些技术可帮助企业处理大数据带来的多种新问题。

    在诸多的新兴解决方案中,Hadoop和MapReduce被视为是两种大有希望的方法,可高效管理和分析大数据。但目前针对MapReduce应用的运行时引擎还无法提供足够功能来满足企业希望在生产环境中部署MapReduce应用的实际需求。

    对企业IT部门来说,先进的运行时引擎应该是这样一种管理工具:它可以在满足高标准服务水平协议(SLA)的同时,支持企业里的各业务部门。这类管理工具应该能够支持混合类型的工作负载,包括MapReduce应用及业务部门在共享式网格上智能化提交的其他应用。

    此外,如今的IT部门正在经历重大转变。在许多情况下,IT部门不再只是个成本中心,相反,它被视作是支持企业里各业务部门的服务提供者。预算有限、工作负载需求加大,使得IT部门面临巨大的压力,必须进一步充分利用现有的基础架构,最大限度地提高总的资源利用率。

    让在基础架构方面的投资迅速获得回报是IT部门在做采购决策时最重要的考量因素之一。能充分利用现有的基础架构,满足更高的工作负载需求,并实时动态地满足需求,进一步节省成本,提高投资回报,无疑是企业希望寻找的解决方案。

    为了支持MapReduce应用等新型应用,IT部门迫切需要一种共享式服务运行时平台以获得更好的性能、更高的资源利用率、自动监控和诊断功能,同时也需要IT基础架构能提供更高级的应用生命周期支持。

何谓共享式服务模型?

    共享式服务模型是指这样一种基础架构平台:它允许多个应用(无论其类型和要求是什么)能够在共享式基础架构上并行执行。共享式服务模型常常由一种先进的应用调度和资源管理引擎来管理,为它所支持的企业里的多个业务部门提供有保障的服务。

共享式服务IT模型提供以下几个重要好处:

少花钱多办事

迅速获得基础架构方面的投资回报

提供更好的可管理性

有更好的可扩展性和灵活性以支持不断变化的应用需求

利用收费政策,让IT部门的角色从成本中心转变成盈利中心

现有的HadoopMapReduce运行时引擎面临的挑战

    遗憾的是,目前MapReduce运行时引擎的Hadoop实现无法提供上述的共享式服务功能。这归因于Hadoop作业跟踪器(HadoopJobTracker)的基本架构设计——Hadoop作业跟踪器是一个管理层,在运行期间为MapReduce作业提供必要的服务。

目前的Hadoop作业跟踪器还无法把作业调度逻辑与资源管理逻辑分离开来,这直接导致了下列重大缺陷:

    缺少企业级能力。在任何一个时间,只有一个MapReduce应用可以在集群上运行。因而,资源变成了静态的和用途单一的;而应用也是串行执行,而不是并行执行,导致无法有效利用的资源、形成烟囱式的IT环境,限制了可扩展性。

    作业跟踪器成为单一故障点。如果作业跟踪器出现故障,所有运行中的作业都将停止。

    很显然,目前Hadoop作业跟踪器能力有限,无法提供IT部门在生产级环境中部署MapReduce应用所需的共享式服务功能。

借助PlatformSymphonyMapReduce提供共享式服务

    PlatformSymphonyMapReduce是一种生产级、分布式的运行时引擎,用于管理规模化的大数据应用。PlatformSymphonyMapReduce为企业运行大数据应用提供了下列独特好处:

能够为IT部门带来一种共享式服务平台

提高资源利用率,加大基础架构方面的投资回报

能够在企业里实现完善的服务水平协议

提供更高的性能、缩短获得结果的时间

简化IT管理,降低管理复杂IT环境的总成本

加强IT敏捷性

如何部署共享式服务模型?

企业应该视不同的业务要求使用以下方法部署共享式服务模型:

1.“烟囱式共享模型”——为不同的业务部门提供有保障的资源。IT部门根据不同业务部门的特定需求,为它们提供有保障的资源。业务部门向集中式IT部门请求一定数量的资源,专门供自己使用。然后,那些请求被定义为策略,加入到资源分配方案中。不同业务部门之间不共享资源。集中式IT部门负责管理资源分配、系统监控和故障排除。

2.“代理式共享模型”——企业内部跨各职能领域的资源共享。企业内部的不同职能部门共享一组通用的IT资源,资源共享策略根据不同业务部门的特定需求来予以定义,然后加入到资源分配方案中。不是为某个业务部门单独分配静态资源,而是通过动态共享整个基础架构,从而为用户提供有保障的资源。

大数据—将成为决定企业胜负的关键因素回目录

 现在到处都在大肆宣传“大数据”,即博客、社交网站、论坛、金融交易、电子邮件、文件、日志文件和不计其数的其他来源等创建和传输的大规模数字信息。互联网是大数据快速增长的巨大驱动力,它让企业能够访问来自B2B合作伙伴和供应商的门户网站、竞争对手的网站、政府基于Web的应用程序和消费者交易等的信息。

  所有这些数据都极大地改变了企业的运营:帮助企业通过流程优化提高盈利能力,通过基于购买行为的预测分析提高销量,或者通过预测市场环境变化来节省成本。

  大数据=大商机

  我们看到很多充足的证据都表明基于数据的决策对企业产生了重大的影响。其中较著名的例子就是关于低预算的Oakland A的棒球队如何利用数据分析从多年的历史数据中提取情报信息以加强竞争优势,最终成为一支冠军球队的故事。当然还有很多其他的例子。

  船运公司利用交货时间和交通模式的数据来进行路线优化,金融机构将确定的市场趋势转变成可操作的预测数据,让他们在股票价格上涨之前就购买某只股票来获得巨大的经济利益。麻省理工学院斯隆管理学院的教授Erik Brynjolfsson表示,基于数据分析的决策实现的生产率增长,要比任何其他因素高5%到6%。这种生产率增长能够决定大多数行业的胜负。

  大数据不仅仅是大

  在现实中,尽管大数据被吹捧得神乎其神,但很多公司对此仍然采取观望的态度,因为处理大数据存在很高的困难度和复杂性。根据市场研究公司Gartner 的预测,到2015年,超过85%的财富五百强企业将无法有效地利用大数据。在关于大数据的讨论中经常让人头痛的是,要想从大数据获得巨大的价值,企业需要访问真正相关的数据,而不能被收集和存储所有数据的工作所压倒。需要收集和存储的数据量非常庞大,只有将来自多个来源和多种格式的数据整合并对数据的快速实时捕捉才可能从中获取最大价值。

  根据Aberdeen研究所2012年1月的大数据报告显示,在过去三年中,企业管理的独特数据来源的数量正在不断增加。据Aberdeen称,最厉害的公司往往是那些能够成功地缩小不断增加的数据来源与分析程序及系统(即他们用于将数据转化为业务情报的分析程序和系统)之间差距的公司。

→如果您认为本词条还有待完善,请 编辑词条

标签: 大数据来袭