大数据分析平台-大数据- 科技百科 -互联网博物馆，你我的知识加油站

• 大数据分析平台
• 大数据下的数据分析平台架构

大数据分析平台编辑本段 回目录

　　“大数据”这个提法通常指的是数量、速度和种类都会急剧倍增的数据。根据Enterprise Strategy机构最新研究，大数据分析平台正在模仿这种定义：供应商产品发布数量在增长，产品增强功能迅速翻倍，现在有多种部署选择支持。

　　Julie Lockner是ESG的一位高级分析师，也是《稳固的大数据分析平台》一书的作者，她说企业在考虑他们如何把大数据技术整合到他们的架构中——尤其是当它变得价格可负担，并且可扩展时。

　　部分苦恼源自于大数据技术和术语的流动性，这带来了市场混乱的纠结。Lockner把她的研究命名为“市场前景报告101”，她相信这种纠结可以通过内部评估和培训来抚平。

　　这么做意味着从头开始，也就是从定义开始。

　　大数据有很多选择

　　根据ESG的报告：“大数据分析项目如雨后春笋般冒了出来，有的甚至还没有理解清楚大数据真正的含义就开始做了。”

　　根据个人对这一定义理解的差异，这一术语的含义有可能扩大或者缩小。事实上，它的定义已经变得很宽泛了，ESG给出了他们自己的解释：“超出正常处理能力边界和大小的数据集，迫使你采取非传统的方法。”

　　Lockner表示，问题是数据量将会发展到TB级，当前系统上会开始出现“应力性骨折”，常规用途的技术在大数据以及大数据分析面前将不能保证成本高效的方法。那才是企业应该考虑扩展他们数据中心的时候。此前，许多大型跨国公司都在做这样的项目，但现在有更多可以支付得起的选择。不管是预算，还是技能集。”

　　目前，企业都使用了大量大数据部署方案，有定制开发的方法，大规模并行处理数据库，云计算服务或者一些可用工具的组合。开源Apache Hadoop项目的加入更激起了持续增长的兴趣，该开源项目支持大数据集分布式处理。

　　Lockner评价说：“我不记得自HTML诞生之后还有另外哪一种技术可以产生这么大的影响了。”

　　像IBM和EMC这样的供应商都想搞清楚如何把Hadoop整合到他们产品服务中。例如，在1月9日甲骨文推出了大数据机，它包含了与Hadoop经销商Cloudera的合作伙伴关系。现在的情况是，如果哪家厂商谈大数据时没有提到Hadoop，你就都不好意思发布新的产品。

　　尽管Lockner看到了Hadoop的许多许诺，并且相信今后它将在大部分企业数据中心中存在，但她的研究表明它仍然是一种新兴技术，应该被用于特定的场景。

　　大数据开始了

　　企业要探索在大数据分析平台上进行投资，需要审查供应商对大数据的定义，并了解他们的产品与大数据的相关性，这是一个很好的开始点。Lockner说：“当你与供应商交流时，要弄清楚他们产品定位以及能解决的问题是什么？”

　　例如，EMC公司有多款大数据产品，比如Greenplum数据库软件，Greenplum数据计算设备和Isilon。这三款产品处理的都是不同类型问题。Lockner说：“你必须真正把洋葱层层剥开，并做一些功课。”

　　首先，Lockner推荐客户依靠他们有良好关系的供应商，要求查看他们大数据分析平台的演示。这些都是免费信息。因为这个企业中的人们会尽力理解他们想做的事，他们应该可以对供应商施加压力。

　　她推荐客户也要学习针对他们业界其它厂商的案例使用情况。这种信息可以帮助看清楚哪些供应商是真正的意见领袖，哪些不是。

　　企业应该依靠他们内部的IT部门和他们更有技术悟性的员工，来帮助做一些功课。Lockner说：“通常情况下，一些实验室项目之类的会研究新技术，而且如果企业可以找到那些专家组并与他们集思广益讨论如何做的话，那是一个相当不错的开始。”

　　但是要真正剥离这些层次，企业应该判断什么是真正的需求，供应商的产品如何能满足这些需求。据该报告认为，这意味着要估量清楚内部可用技能，数据将从哪里来，分析行为需要多快完成，哪些内容需要与新平台整合。Lockner表示：“理解业务需求比拥有出色的技术更重要。”

大数据下的数据分析平台架构编辑本段 回目录

文/谢超

随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。

作为一家互联网数据分析公司，我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下，我们几乎尝试了所有可能的大数据分析方法，最终落地于Hadoop平台之上。

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。

大数据分析的分类

Hadoop平台对业务的针对性较强，为了让你明确它是否符合你的业务，现粗略地从几个角度将大数据分析的业务需求分类，针对不同的具体需求，应采用不同的数据分析架构。

按照数据分析的实时性，分为实时数据分析和离线数据分析两种。

实时数据分析一般用于金融、移动和互联网B2C等产品，往往要求在数秒内返回上亿行数据的分析，从而达到不影响用户体验的目的。要满足这样的需求，可以采用精心设计的传统关系型数据库组成并行处理集群，或者采用一些内存计算平台，或者采用HDD的架构，这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。

对于大多数反馈时间要求不是那么严苛的应用，比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等，应采用离线分析的方式，通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据，传统的ETL工具往往彻底失效，主要原因是数据格式转换的开销太大，在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具，有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等，均可以满足每秒数百MB的日志数据采集和传输需求，并将这些数据上载到Hadoop中央系统上。

按照大数据的数据量，分为内存级别、BI级别、海量级别三种。

这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量，Facebook缓存在内存的Memcached中的数据高达320TB，而目前的PC服务器，内存也可以超过百GB。因此可以采用一些内存数据库，将热点数据常驻内存之中，从而取得非常快速的分析能力，非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。

: 图1 用于实时分析的MongoDB架构

MongoDB大集群目前存在一些稳定性问题，会发生周期性的写堵塞和主从同步失效，但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。

此外，目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案，利用内存+SSD，也可以轻易达到内存分析的性能。随着SSD的发展，内存数据分析必然能得到更加广泛的
应用。

BI级别指的是那些对于内存来说太大的数据量，但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多，就不具体列举了。

海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多，但基于软硬件的成本原因，目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据，并使用MapReduce进行分析。本文稍后将主要介绍Hadoop上基于MapReduce的一个多维数据分析平台。

数据分析的算法复杂度

根据不同的业务需求，数据分析的算法也差异巨大，而数据分析的算法复杂度和架构是紧密关联的。举个例子，Redis是一个性能非常高的内存Key-Value NoSQL，它支持List和Set、SortedSet等简单集合，如果你的数据分析需求简单地通过排序，链表就可以解决，同时总的数据量不大于内存（准确地说是内存加上虚拟内存再除以2），那么无疑使用Redis会达到非常惊人的分析性能。

还有很多易并行问题（Embarrassingly Parallel），计算可以分解成完全独立的部分，或者很简单地就能改造出分布式算法，比如大规模脸部识别、图形渲染等，这样的问题自然是使用并行处理集群比较适合。

而大多数统计分析，机器学习问题可以用MapReduce算法改写。MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。

: 图2 RCFile的行列混合存

面对大数据OLAP分析的一些问题

OLAP分析需要进行大量的数据分组和表间关联，而这些显然不是NoSQL和传统数据库的强项，往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、延迟加载、对存储数据块的预统计、分片索引等技术。

Hadoop平台上的OLAP分析，同样存在这个问题，Facebook针对Hive开发的RCFile数据格式，就是采用了上述的一些优化技术，从而达到了较好的数据分析性能。如图2所示。

然而，对于Hadoop平台来说，单单通过使用Hive模仿出SQL，对于数据分析来说远远不够，首先Hive虽然将HiveQL翻译MapReduce的时候进行了优化，但依然效率低下。多维分析时依然要做事实表和维度表的关联，维度一多性能必然大幅下降。其次，RCFile的行列混合存储模式，事实上限制死了数据格式，也就是说数据格式是针对特定分析预先设计好的，一旦分析的业务模型有所改动，海量数据转换格式的代价是极其巨大的。最后，HiveQL对OLAP业务分析人员依然是非常不友善的，维度和度量才是直接针对业务人员的分析语言。

而且目前OLAP存在的最大问题是：业务灵活多变，必然导致业务模型随之经常发生变化，而业务维度和度量一旦发生变化，技术人员需要把整个Cube（多维立方体）重新定义并重新生成，业务人员只能在此Cube上进行多维分析，这样就限制了业务人员快速改变问题分析的角度，从而使所谓的BI系统成为死板的日常报表系统。

使用Hadoop进行多维分析，首先能解决上述维度难以改变的问题，利用Hadoop中数据非结构化的特征，采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中，这样可以在冗余维度下灵活地改变问题分析的角度。其次利用Hadoop MapReduce强大的并行化处理能力，无论OLAP分析中的维度增加多少，开销并不显著增长。换言之，Hadoop可以支持一个巨大无比的Cube，包含了无数你想到或者想不到的维度，而且每次多维分析，都可以支持成千上百个维度，并不会显著影响分析的性能。

: 图3 MDX→MapReduce简略示意图

因此，我们的大数据分析架构在这个巨大Cube的支持下，直接把维度和度量的生成交给业务人员，由业务人员自己定义好维度和度量之后，将业务的维度和度量直接翻译成MapReduce运行，并最终生成报表。可以简单理解为用户快速自定义的“MDX”（多维表达式，或者多维立方体查询）语言→MapReduce的转换工具。同时OLAP分析和报表结果的展示，依然兼容传统的BI和报表产品。如图3所示。

图3可以看出，在年收入上，用户可以自己定义子维度。另外，用户也可以在列上自定义维度，比如将性别和学历合并为一个维度。由于Hadoop数据的非结构化特征，维度可以根据业务需求任意地划分和重组。

: 图4 Hadoop多维分析平台架构图

一种Hadoop多维分析平台的架构

整个架构由四大部分组成：数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图4所示。

数据采集模块采用了Cloudera的Flume，将海量的小日志文件进行高速传输和合并，并能够确保数据的传输安全性。单个collector宕机之后，数据也不会丢失，并能将agent数据自动转移到其他的colllecter处理，不会影响整个采集系统的运行。如图5所示。

数据冗余模块不是必须的，但如果日志数据中没有足够的维度信息，或者需要比较频繁地增加维度，则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源（数据库、文件、内存等），并指定扩展方式，将信息写入数据日志中。在海量数据下，数据冗余模块往往成为整个系统的瓶颈，建议使用一些比较快的内存NoSQL来冗余原始数据，并采用尽可能多的节点进行并行冗余；或者也完全可以在Hadoop中执行批量Map，进行数据格式的转化。

: 图5 采集模块

: 图6 核心模块的逻辑

: 图7 MapReduce WorkFlow例子

维度定义模块是面向业务用户的前端模块，用户通过可视化的定义器从数据日志中定义维度和度量，并能自动生成一种多维分析语言，同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。

并行分析模块接受用户提交的多维分析命令，并将通过核心模块将该命令解析为Map-Reduce，提交给Hadoop集群之后，生成报表供报表中心展示。

核心模块是将多维分析语言转化为MapReduce的解析器，读取用户定义的维度和度量，将用户的多维分析命令翻译成MapReduce程序。核心模块的具体逻辑如图6所示。

图6中根据JobConf参数进行Map和Reduce类的拼装并不复杂，难点是很多实际问题很难通过一个MapReduce Job解决，必须通过多个MapReduce Job组成工作流（WorkFlow），这里是最需要根据业务进行定制的部分。图7是一个简单的MapReduce工作流的例子。

MapReduce的输出一般是统计分析的结果，数据量相较于输入的海量数据会小很多，这样就可以导入传统的数据报表产品中进行展现。

结束语

当然，这样的多维分析架构也不是没有缺点。由于MapReduce本身就是以蛮力去扫描大部分数据进行计算，因此无法像传统BI产品一样对条件查询做优化，也没有缓存的概念。往往很多很小的查询需要“兴师动众”。尽管如此，开源的Hadoop还是解决了很多人在大数据下的分析问题，真可谓是“功德无量”。

Hadoop集群软硬件的花费极低，每GB存储和计算的成本是其他企业级产品的百分之一甚至千分之一，性能却非常出色。我们可以轻松地进行千亿乃至万亿数据级别的多维统计分析和机器学习。

6月29日的Hadoop Summit 2011上，Yahoo!剥离出一家专门负责Hadoop开发和运维的公司Hortonworks。Cloudera带来了大量的辅助工具，MapR带来了号称三倍于Hadoop MapReduce速度的并行计算平台。Hadoop必将很快迎来下一代产品，届时其必然拥有更强大的分析能力和更便捷的使用方式，从而真正轻松面对未来海量数据的挑战。

作者谢超，Admaster数据挖掘总监，云计算实践者，10年数据仓库和数据挖掘咨询经验，现专注于分布式平台上的海量数据挖掘和机器学习。

参考文献

http://www.programmer.com.cn/7617/

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。本词条对我有帮助0

大数据分析平台发表评论(0) 编辑词条

大数据分析平台编辑本段 回目录

大数据下的数据分析平台架构编辑本段 回目录

对词条发表评论

大数据分析平台 发表评论(0) 编辑词条

大数据分析平台编辑本段回目录

大数据下的数据分析平台架构编辑本段回目录

对词条发表评论

大数据分析平台发表评论(0) 编辑词条