大数据4V理论 编辑本段回目录
根据国外媒体报道,在Computerworld Australia和存储网络行业协会A/NZ共同举办的信息基础设施推进研讨会(Implementing Information Infrastructure Symposium,IIIS)上,IDC美国存储方案副总裁Benjamin Woo表示,每位存储管理者都应该关注Big Data大数据的4V,也就是容量、类型、速度和价值(volume、variety、velocity和value )。
著名机构IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。
“从价值的角度来看,如何为用户获取价值以实现领先于他人的优势?”Woo说道,“大数据是多维的,而且极具复杂性……”
大数据带来的价值包括但不限于:数据的组织和管理,基础架构,决策支持和自动化界面和分析。
Woo警告说,存储管理者并不能将大数据交由CFO来打理,“我愿意为此投入300万美元,而你需要付出的将是1亿美元。”
“你对此毫无知情,而这就是大数据为何成为一种挑战的原因,因为你正在投资的是一个未知领域。”
不过,如果IT人士关注数据分析的话,他们可以将这些应用带入到组织机构中,并且将其成为IT任务处理的一个流程。
“大数据主要关系到决策支持。因此,当你制定涉及数百万美元经费的决策的时候,会非常渴望获取足够多的信息。”Woo表示。
大数据的4V理论编辑本段回目录
按照国外媒体报道,在Computerworld Australia和存储收集行业协会A/NZ共同举办的信息根蒂根基举措措施推动研究会(Implementing Information Infrastructure Symposium,IIIS)上,IDC美国存储规划副总裁Benjamin Woo默示,每位存储经管者都应当存眷Big Data大数据的4V,也就是容量、类型、速度和价值(volume、variety、velocity和value )。
“从价值的角度来看,如何为用户获取价值以实现领先于他人的上风?”Woo说道,“大数据是多维的,并且极具错杂性……”
大数据带来的价值包含但不限于:数据的组织和经管,根蒂根基架构,决定计划支撑和主动化界面和解析。
Woo警告说,存储经管者并不克不及将大数据交由CFO来打理,“我愿意为此投入300万美元,而你须要付出的将是1亿美元。” “你对此毫蒙昧情,而这就是大数据为何成为一种挑衅的原因,因为你正在投资的是一个未知范畴。”
“大数据首要关系到决定计划支撑。是以,当你制订涉及数百万美元经费的决定计划的时辰,会很是渴望获取足够多的信息。”Woo默示。
大数据有大智慧编辑本段回目录
除了“物联网”和“云计算”,IT业又出现了一个新名词——大数据。如今,大数据甚至引起了工商界和金融界的高度关注,人们认为大数据将为数据应用和决策支持提供有效帮助,成为物联网和云计算内在的灵魂和必然的发展趋势。
大数据目前尚没有统一的定义,通常被认为是一种数据量很大、数据形式多样化的非结构化数据。
这里我们先弄清楚几个概念,结构化数据、半结构化数据和非结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。
很多人相信这些庞大的异构数据中蕴含着巨大财富——企业如果能在这些非结构化数据中挖掘知识并与业务融合,决策的依据将会更加全面和准确;在科学、体育、广告和公共卫生等其他领域中,也有着向数据驱动型的发现和决策方式转变的趋势。
大数据的推动因素主要来自于一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。据市场研究公司统计,未来10年里预计数字信息总量将在2009年到2020年增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。
大数据呈现出“4V+1C”的特点:(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;(5)Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。
Apache的Hadoop已成为大数据行业发展背后的技术推动力,Hive和Pig等技术也经常被提到。同时,旨在从非结构化数据的庞大宝藏中获得知识和洞察力的计算机工具也正在迅速发展中。这些工具的发展依赖于不断进步的人工智能技术,比如自然语言处理、模式识别和机器学习等。
可以预见,未来一两年内,将会涌现大量能够处理大型非结构化数据的工具和平台。除了Hadoop的批量化处理方式之外,基于流数据处理的方式也将在实时数据分析应用中发挥作用。此外,大数据热潮还将对可视化的理解和需求提出新的挑战。可视化在数据工作流中将同时起到解释和探索的作用,数据科学家会将可视化作为寻求问题以及探索数据集新特性的一种方式。
由于大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的厂商。2012年1月,Oracle正式发布Oracle大数据机。IBM在大数据领域的优势则在于全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证。
中国市场在这个新兴领域非常重要。中国有庞大的人口基数,IT基础设施也比较成熟,数据量是不可想象的。乐观的人已经看到了其中的机会,不论是出于应对海量数据的需要进行系统升级,还是试图从数据中挖掘价值的冲动,都有可能迎来一个充满智慧的“数据创新”时代。
结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。
很多人相信这些庞大的异构数据中蕴含着巨大财富——企业如果能在这些非结构化数据中挖掘知识并与业务融合,决策的依据将会更加全面和准确;在科学、体育、广告和公共卫生等其他领域中,也有着向数据驱动型的发现和决策方式转变的趋势。
大数据的推动因素主要来自于一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。据市场研究公司统计,未来10年里预计数字信息总量将在2009年到2020年增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。
大数据呈现出“4V+1C”的特点:(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;(5)Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。
Apache的Hadoop已成为大数据行业发展背后的技术推动力,Hive和Pig等技术也经常被提到。同时,旨在从非结构化数据的庞大宝藏中获得知识和洞察力的计算机工具也正在迅速发展中。这些工具的发展依赖于不断进步的人工智能技术,比如自然语言处理、模式识别和机器学习等。
可以预见,未来一两年内,将会涌现大量能够处理大型非结构化数据的工具和平台。除了Hadoop的批量化处理方式之外,基于流数据处理的方式也将在实时数据分析应用中发挥作用。此外,大数据热潮还将对可视化的理解和需求提出新的挑战。可视化在数据工作流中将同时起到解释和探索的作用,数据科学家会将可视化作为寻求问题以及探索数据集新特性的一种方式。
由于大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的厂商。2012年1月,Oracle正式发布Oracle大数据机。IBM在大数据领域的优势则在于全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证。
中国市场在这个新兴领域非常重要。中国有庞大的人口基数,IT基础设施也比较成熟,数据量是不可想象的。乐观的人已经看到了其中的机会,不论是出于应对海量数据的需要进行系统升级,还是试图从数据中挖掘价值的冲动,都有可能迎来一个充满智慧的“数据创新”时代。