数据分析技术成为主流编辑本段回目录
以IBM为首的电脑分析软件供应商一直在不遗余力地将“以数据为主导”的理念传播给更广大的公众,而分析技术之所以渐趋主流也部分得益于此。
无论是在ESPN电视台为梦幻橄榄球做的广告,还是选举之夜对投票及民意调查数据进行的交叉纵横分析,抑或是定量模型在股票交易及投资组合开发方面不断扩大的影响,以数据为主导的决策模式不再是那些具有非常过硬的数量分析能力的人所从事的专属领域。
毫不奇怪,在“分析”的定义方面完全存在问题。从简单定义而论,某澳大利亚公司称:“分析基本上就是用现有的业务数据或统计资料作出明智的决定。”从广义而论,TechTarget公司将数据挖掘(data mining)与数据分析(data analytics)做了区别(并不完全令人信服):
“数据分析(DA)是以得到有关信息的一些结论为目的而对原始数据进行研究的一门科学。数据分析用于许多行业,使各企业及组织能够做出更佳的业务决策;而在科学研究方面,可以用以验证或否定现有的模型或理论。数据分析与数据挖掘的区别在于所分析的范围、目的及重点。数据挖掘采用先进的软件对大量数据进行整理分类,以识别其中所隐藏的规律,并确定其中所隐藏的关系。”
为了避免用语上的陷阱,让我们仅将分析定义为:使用统计及其他数据处理方法,从大量数据中梳理出一些有关企业的高深见解,以及用于决策的各种有用的线索。
为了展示这些概念和方法的使用范围,让我们来考虑以下随机选择的几个例子——
2010年5月发生的“闪电崩盘”使人们将关注点聚集在证券算法交易的许多形式和作用之上。虽然有关实际算法交易的确切数据很难找到,但据彭博社的数据显示,受监管控制的纽约证券交易所(New York Stock Exchange)在其上市股票交易中所占的份额已从80%下跌到2010年的区区26%。大部分交易发生在其他交易场所,其中许多基本上是一些“无人监管”的数据中心;雇用少部分人进行与股票市场相关交易的高频交易公司每天在大约100亿股的美国证券交易总量中占据60%的份额。
部分是由于迈克尔·刘易斯(Michael Lewis)的畅销书《点球成金》(Moneyball)所造成的广泛影响,定量分析已从之前在许多体育活动中属于非主流技术怪才的利基型技术转变成重要的技术组成部分。麻省理工学院每年举办的有关体育分析的会议,不仅吸引了座无虚席的观众,也吸引了一流专家参加演讲。随着足球、板球及橄榄球加入到更为熟悉的美国主要运动——足球和棒球之列,以统计数据为主导的梦幻体育活动继续在全世界普及。
社交网络分析,这门在二十年前还很少实践的社会学分支,已在情报行业、市场营销及科技行业风行日盛。物理学、生物学、经济学等学科都对这一领域内的知识快速增长作出了贡献。毕竟,Facebook、基地组织及不计其数的新创公司都需要获得了解手机、GPS及与朋友/亲属相关流量的新方法。
约翰·乔丹(John Jordan)是宾夕法尼亚州立大学(Penn State University)供应链与信息系统系的实践教授(clinical professor),他教授的课程包括MBA的IT战略及一些本科生的商业课程。
数据分析技术风行日盛编辑本段回目录
在“数据分析技术成为主流”(Analytics Goes Mainstream)一文中,我对目前以数据为主导的决策模式得以如此广泛应用的原因进行了解释。或许除了其应用范围外,同样令人感兴趣的还有这股数据分析技术热情背后的许多交叉因素。或许存在诸多其他因素,但我这里想介绍以下九个因素。
1. 全面质量管理(Total Quality Management,简称TQM)和六西格玛管理计划(six-sigma program)培养出一代重视严格运用数据的产品经理。六西格玛计划遭到滥用和曲解是毫无疑问的事实,但是我认为,以数据为主导的决策方式所带来的成功,极大影响了现在企业内部对高等统计式数据分析更为广泛的兴趣。
2. 数量金融学将运筹学、物理学、生物学、供应链管理学及其他领域的一些理念用于解决货币及市场问题。经过一些转变,许多数据密集型技术,比如投资组合理论,现在正从形式上的金融学科转化成日常管理的工具。
3. 正如Google公司CEO埃里克·施密特(Eric Schmidt)今年8月谈到的,现在我们两天内所产生的信息量就相当于人类自有文字记载以来至2003年的总和。显然,这个统计是以比特(bit)为计量单位的,而且Google的这一估计会由于高清视频的剧增而有所偏颇,但是这个总体观点是正确的:人们及各类组织目前产生数据的速度远超过任何人类或程序可以收集、消化或做出反应行动的速度。手机作为传感及通讯的平台作出了巨大贡献,企业应用及图像生成系统同样功不可没。现在,世界上有更多的领域以日益标准化的方式装备起各类数据仪器,其规模远超以往任何时候:Facebook的状态更新、全球定位系统(GPS)、ZigBee无线通讯技术及其他“物联网”(Internet of things)技术,以及运用于越来越多的产品上的条形码及RFID电子标签技术等等,这些只是其中的一部分。
4. 正当我们人类作为一个物种,产生以往任何时候都远远要多的数据的时候,摩尔定律(Moore's Law)及其一些推论(比如有关硬盘驱动器的克来德法则<Kryder's Law>)正为我们创建起一个计算构架,使数据处理的成本效益可以比以往任何时候都高。当然,这些数据处理过程还会产生更多数据,加剧了数据过量的问题。
5. 继推行业务流程重组/企业资源计划(BPR/ERP)、互联网泡沫以及将服务导向架构作为一个业务发展主题的努力基本失败之后,供应商们目前正主推数据分析技术。数据分析技术可以用来销售服务、硬件和软件;可以用于每个垂直细分市场;适用于各种企业规模;而且与其他宏观层面的发展动向相连:智能电网(smart grids)、碳足迹、医疗成本控制、电子政务、市场营销效率、精益制造(lean manufacturing)等等。总之,许多供应商有充分的理由在其市场进入策略中重视数据分析。许多完成的投资交易增强了这个着重数据分析的承诺:SAP公司对Business Objects公司的收购是其历来规模最大的一次并购交易,而IBM、甲骨文(Oracle)、微软及Google公司都已在数据分析领域花费了数十亿美元收购相关企业。
6. 尽管在ERP、数据仓库(data warehousing)及“实时”系统上投资了所有这些资金,但大多数管理者仍不能完全信任他们的数据。上述现象并没有因行业而有所差别,企业系统中的数据质量无法给予管理者以信心,而数据分析结果及时性差别很大,尤其对于跨国公司来说。我与各行业的企业高管进行过交流,他们都有同样的感叹:根据自己公司所有的数据及系统,我们往往无法对公司及行业市场的状况形成一个坚信可靠的认识。
7. 与这种对企业数据缺乏信心的现象相关的是,许多行业的风险意识正日趋增长。无论是在产品原产问题(比如美泰公司(Mattel))、产品召回管理(丰田汽车公司、Safeway连锁超市或CVS连锁药店)、自然灾害风险(好事达保险公司(Allstate)、丘博保险公司(Chubb))、信用及违约风险(任何公司)、医疗事故(任何医院)、交易对手风险(高盛集团)、或是在灾害管理或欺诈(安然公司(Enron)、印度萨蒂扬软件外包公司(Satyam)、法国兴业银行(Societe General))方面,过去十年中所发生的一桩桩事件已使广大企业高管及经理敏感地意识到,需要对企业的各种复杂情境进行以数据为驱动的严格监控。
8. 来自不同范畴的数据可通过诸如GPS定位、信用报告、手机号码或甚至甚至Facebook身份识别这些现成的标识符相互关联起来。Facebook网站上的“喜欢”按钮本身就担任着消费行为跨组织数据分析的一个巨大激励因素,其分析规模之大是以前基于抽样调查的营销分析力所不及的。试想当“抽样”人口达到1亿个人的时候,会发生什么呢?
9. 可视化(visualization)正日益改善。虽然电子数据表普遍应用于每个组织,而且今后仍将如此,然而信息可视化(information visualization)的质量在过去的十年中已得到改善。这可能主要是由于大数法则(一船沙的1%远多于一把沙的1%),或者也可能是反映出这一代技术精湛的信息设计师越来越大的影响力,也可能是因为诸如Mathematica软件及Adobe公司的Flex开源软件开发平台等工具正授予我们将数据更好地转化为图像的能力。不管怎样,无论是软件工具还是信息可视化输出的质量提高,都增强了企业转向复杂定量数据分析的大趋势。
IBM的数据分析之路编辑本段回目录
IBM将在2015年之前斥资160亿美元开发商业数据分析技术。蓝色巨人已经在这个领域花了大本钱,迄今投资已超过120亿,过去5年里就收购了23家分析技术公司。福布斯记者吉姆·迈克尼古拉斯(Kym McNicholas)近日有机会和IBM实体分析组首席科学家杰夫·乔纳斯(Jeff Jonas)(注,该部门为乔纳斯于1984年创办,2005年被IBM收购)晤面,并畅谈有关数据(分析)的话题。
福布斯(笔者):你们认为目前商业数据分析领域最大的趋势有哪些?
杰夫·乔纳斯:其中一个趋势是,企业组织想尽量更快捷地理解当下发生的事件,以便作出更佳的决策,这些实时发生的事件包括顾客在银行主页上申请信用卡,有人打进客服电话订购产品等等。企业想尽可能更快地做出更好的决策。
再举个例子:零售商户们会(一无所知地)雇佣在自己店内被逮捕过的窃贼当雇员。目前有统计,美国的大型零售商,其每千名雇员中就有两名曾经因在该店行窃而被捕过。
如果他们按某个频率运行数据分析,比方说按季度核查,每季度运行一次,就会告诉管理者:“嘿,你该不会雇佣了这些家伙吧?”你会有啥反应,“马后炮!难道在我雇他们前不能给我预警吗?”
没错。
(更快捷的数据分析)这就是一个趋势。
第二个趋势:地理位置。
是的,另一个趋势是,对象的流动信息变得非常有价值了。我们在处方药瓶上粘贴小标签来确保假药不会混入供应链。现在这个做法正在食品市场热门起来,人们能借此跟踪物料进入食品市场的路径。而当顾客们在货架前徜徉,当他们在脸谱网上签到,获取类似四方平台(注,Foursquare ,手机地理位置服务商)这样的服务,商家能凭借得知顾客人在何处而避免在非目标客户身上浪费时间。
而且他们(地理位置服务商)能实际掌握所有你流连过的地方,并为你创建一份个人化的路面交通信息报告,是这样吗?
如果今天你驱车走另一条道儿,你的手机会收到一条短消息。这可不会像骚扰短信那样惹人厌吧。好了,你开车上路了,由于你已经登录并获取了一些服务,基本上就能预报很多信息了。它知道你往哪里去。比方说,“今天走这条公路可是个坏主意。前面堵得厉害。车子都不动呢。你就要堵进车龙里去了。”于是你收到了这样的短信,“雪佛龙石油(注,这里举例采用并提供数据分析服务的组织为Chevron公司)提醒您,快改上别的公路。”你会做啥反应?自然是心里感谢道:“哦哥们,你太够意思了。”
您还提到这个服务还能让你在去上班或下班回家的路上办杂事儿。
我常做的事情里有一件是,思索未来生活会变成什么样子。我想到,当我在谷歌上搜索什么信息,比方说要找一家洗衣店,或许出现在搜索结果首条的那家店就该在我家和常去目的地之间的路上。
我们所有的个人数据都在这里那里摆着、都在掌握并设法为你定制私人化服务的专业人士手里,那么如何保护隐私就是个大课题了。我是说,这年头,你还得小心这些呢。
我觉得,如果企业在征询客户意见并得到同意前就做些举动,会受到惩处的,这种例子会多起来。
或者企业公开的数据过多或数据外泄(也会受处罚)。
是的,如果数据被盗,那就是企业的巨大灾难。这被称为非故意泄密。比如某家公司信誓旦旦,“我们实时保护你的数据资料”,然后又在某日不得不声明有160万条信用卡数据被盗。这种事情太窘了。对企业声誉很不利。
所以IBM在这个问题上做了些有意思的努力。想象一下吧,我们不在数据库里做一套包含有名字和住址的数据拷贝,而是做能够匿名的备份,因此资料不附带任何客户名字或住址。
这么一来你们既能利用那些信息,又能避免牵扯到具体的人名。
是的,现在你可以在企业里传播这份信息,给市场部门的同事用来更好地掌握顾客的一般情况,比如消费习惯等等。然而,你又没有实际交给他们顾客的名址和生日信息。以这种方式来分享信息是更可靠的办法。所以这种方法很适合需要隐私强化保护技术的数据类别,我对此成就很激动。
这对保密性意义何在?
嗯,我想如今企业真的重视保护客户的数据资料了,这样就不会泄密了。
泄密对品牌声誉有污。
是的,对品牌造成污点。这意味着你必须对数据管控和数据保护做一大堆工作。如果组织内部出现了内鬼,看了不该看的文件,也一样糟糕。所以有趣的事情来了,用匿名技术来抵消这些不安全因素,用类似这些被称为防篡改日志的隐私保护分析法,比方说在银行组织里,能记录银行内部人员实际查看记录的情况。日后当遇到类似疑问“谁偷了张三的身份?”然后就有人查阅一下防篡改日志,只见上面写着:“干坏事的是李四。”
参考文献编辑本段回目录
http://www.forbeschina.com/review/201011/0005230.shtml