科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 2854 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2012-05-01
高兴
高兴
发短消息
相关词条
大数据副作用
大数据副作用
大数据时代的业务转型
大数据时代的业务转型
大数据挑战谷歌
大数据挑战谷歌
社会化商业新数据时代
社会化商业新数据时代
大数据的兴起
大数据的兴起
大数据邂逅网络交友
大数据邂逅网络交友
竞争优势与大数据
竞争优势与大数据
大数据的未来是App
大数据的未来是App
大数据常见误解
大数据常见误解
大数据改变美国大选
大数据改变美国大选
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

大数据高成本 发表评论(0) 编辑词条

目录

大数据带来高成本编辑本段回目录

现今我们已经进入了大数据时代,因为创新的数据管理技术的诞生,使得组织可以对所有的数据类型进行分析。这也使得企业每天都能够发掘出新的商业机会。

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据。组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因。但新的商业模式的真实成本还尚未被人们充分认识。

数据格式的多样化

从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:

结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;

半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;

非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

市场的领导者们对存储的多格式数据进行分析不止获得竞争的优势。通过对数据的分析使得他们可以更深入的洞察客户的行为模式,这直接影响到他们的业务。

两个特定的行业——电信和零售已经在数据仓库解决方案投入巨资。随着时间的推移,电信和零售两大行业通过对累积的大量客户事务和互动数据研究以确定关键的性能指标。例如每年的收入、每个客户通过网络获取促销信息所导致花费以及销售的高峰。

然而随着数据的激增,即使是市场的领导者也无法承受,传统的数据仓库已无法存储和管理PB级规模的原始详细数据。企业往往将数据备份到离线的磁带上,但这并不容易访问。业务的挑战无处不在,例如当圣诞节恰逢星期六时,企业就需要对7年前(恰逢圣诞节也是周六)的数据进行分析以便了解特定的模式。将大量的历史数据导入数据仓库不仅极具挑战性,同时成本也是非常昂贵的。

两大创新促进大数据发展

两个关键因素正在企业级规模大数据管理和分析中发挥作用。首先是网络创新,包括Facebook、Google、Yahoo已开发出一种大规模可扩展的存储和计算架构以管理大数据。Hadoop框架以低成本的硬件处理大型数据集,这使得处理PB级规模数据的成本大幅降低。

其次管理大数据的技术需求已经从不同的市场领域发展为日益增加的需求以及跨越多个部门的独特需求。随着越来越多的终端设备连接成千上万的移动应用,管理PB级规模数据的通信运营商预计数据将会有10-100倍的增长,这也迫使用户向4G或LTE网络转移。智能电网也受到大数据的影响,世界各地的城市都在加入新的“数字化电网”。金融服务机构看到交易和期权数据100%的复合增长,这导致金融机构最少将数据存储7年。

在未来的3到5年,大数据已经成为私人和公共组织的战略关键。事实上,在未来5年预计有50%的大数据项目会在Hadoop框架下运行。

目前的状况是传统的数据仓库的扩展性不佳,同时写入数据速度已经无法跟上数据产生的速度。而专门涉及的数据仓库在处理结构化数据时非常有效,但扩展硬件时的成本较高。

在大数据领域,Hadoop的低成本和高扩展性是其关键因素。例如一个处理PB级规模数据的Hadoop集群(125到250节点)的费用大约为100万美元,而每个节点每年的费用为4000美元。这对于企业级数据仓库的花费(1000万-1亿美元)来说只是一小部分。这样看来Hadoop似乎是一个不错的解决方案。问题是企业如何利用Hadoop并将其作为关键业务的核心技术。然后,现有设施与大数据生态系统的整合的整体经营真正成本的关键。

由于大数据的规模,如Yahoo的Hadoop系统共有50000节点和200PB的数据,管理这些数据需要更多的额外的存储能力。许多Web 2.0组织运行Hadoop完全依赖数据冗余。但如果企业是银行或通信行业就必须遵守基于标准的安全性、灾难恢复性和高可用性。Hadoop发展到今天也面临诸多的问题,面对这些挑战,Hadoop必须引入更复杂的数据管理和技术资源。

大数据时代催生数据科学家

在部署Hadoop处理大数据表面的背后,对开源平台的创新也催生了“数据科学家”这一新兴职业。数据科学家本质上更像是统计学家,他们有能力设计和利用MapReduce框架。Google的Hal Varian表示未来10年数据科学家将变成性感的工作,许多人认为我是在开玩笑,回过头来看,在20世纪90年代谁会猜到计算机工程师会成为性感的工作。

前LinkedIn数据科学家DJ Patil表示数据科学家是具备独特技能的。Bitly首席科学家Hilary Mason表达同样的观点,他认为数据科学家是融合数学、算法,并可从大数据中寻求问题答案的人。而现任LinkedIn首席数据科学家Monica Rogati认为数据科学家是黑客和分析师组成的混合体,他们通过数据发现本质。

纽约时报研发实验室的成员Jake Porway表示数据科学家绝对是罕见的全才。数据科学家除了具备编程的能力外还需将各种来源的数据管理并利用统计学挖掘出蕴藏在内部的信息。

Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。他们更喜欢用数据说话。

MapReduce与现有设施的整合

MapReduce是一种处理大型及超大型数据集并生成相关的执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。MapReduce将整个任务分解成成百甚至上千块小任务,然后发送到计算机集群中。

为了整合MapReduce,多数企业需要开发一个基于全新技术的基础架构,而对于技术人员的投资成本将很快超过对基础设施的投资成本。此外,为了充分利用现有的数据仓库和商业智能的基础设施,企业需要将现有的工具和技能与Hadoop加以整合。

大数据带来了巨大的商业利益,但隐形成本和复杂性是现今发展的障碍。Hadoop应进一步朝着提高可靠性和易于使用的方面进行完善。Apache是Hadoop发展的主要贡献者。未来对以下两个方面的的改进将改变易用性和成本。

●在Hadoop框架下充分利用SQL和现有的BI工具。

●压缩数据,这不仅会降低对存储需求,还会降低对节点的数量,并简化基础设施。

如果不改善这两个功能,大数据技能学习将需要更多的时间和成本。虽然大数据带来的好处显而易见,但CIO和CTO现在必须重新审视大数据的成本了。(李智/编译)

原文链接:Forbes

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 大数据带来高成本 大数据高成本

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。