贾斯汀·苏利文(Justin Sullivan)/盖蒂图片社
约书亚·E·基廷是《外交政策》助理编辑。
1941年12月6日,对外广播情报署(Foreign Broadcast Information Service,缩写FBIS),这个美国情报界专门用来开展广播监听的机构同时也是最早实验如今称作开源情报的先行者,发布了第一份报告,分析当时日本媒体情绪。这份报告注意到日本广播站突然提高了批评美国的调门,不再呼吁实现和平。第二天,珍珠港事件爆发。
当然,不会有任何媒体监测工具能探明攻击的具体时间和目标(这是交给间谍的任务),但是如果能早一点的侦测攻击将要发生,美国武装力量也不至于被突然袭击弄得如此茫然不知所措。约摸70年之后,有一位计算机学家认为,同样的新闻侦测方式,如果加以彻底改进,或许有那么一天真可以预测社会动荡和冲突——比如这次阿拉伯世界接二连三的革命——而且精准无比。
卡列夫•李塔鲁(Kalev Leetaru)是伊利诺伊州大学人文、艺术和社会科学计算研究所(Institute for Computing in the Humanities, Arts, and Social Science,简称I-CHASS)文字与数字媒体分析主任助理、冲突早期预警这一新兴领域里的顶尖研究专家。今年9月他在网上技术刊物《第一个星期日》发表的一篇经同行评审过的论文,认为“运用计算机对大段文字材料进行分析能够通过新颖的视角观察社会的运转是否正常。”
李塔鲁的研究建立在近年来经济学对新闻及社会媒体报道预测经济动向的研究基础上。例如,最近有一篇论文就发现推特上的普遍情绪能够预测道琼斯工业平均指数(Dow Jones Industrial Average)的涨跌。李塔鲁就很想知道同样的分析手段能不能用来预测社会动向。
李塔鲁找来了收集大量过去30年新闻报道的数据库,其中有《世界广播摘要(Summary of World Broadcasts)》——由FBIS的英国同类机构翻译成英文的外国广播、《纽约时报》全部的电子版档案,以及在网上新闻网站进行搜索的结果。然后他新建了包含自1979年以来的1亿篇新闻稿数据集。随后他把这些原始素材统统“塞进”位于世界上数一数二的超级超级计算机——田纳西州大学的鹦鹉螺(Nautilus),再从中查找出规律。
近些年来,越来越多的公司都安装了所谓的“情绪探测”软件来衡量新闻报道的调门。拿谷歌研发的超级先进的谷歌警告(Google Alerts)来说吧:这些软件扫描新闻稿件中的积极和消极词汇,同时区分感受的严重程度,例如“憎恶(loathe)”与“讨厌(dislike)”的区别。这种软件会略过许多感情色彩上的细微差别,有时候还会被反讽的语调戏弄,但是到李塔鲁所研究的海量数据规模,它能够很好地指出全球媒体在给定主题上的情绪好坏。
以埃及为例。通过观察该国过去三十年媒体报道的调门,李塔鲁发现今年年初媒体报道中的消极情绪达到了近20年来的极值:
特别是在2011年第一周亚历山大城哥普特人(Coptic)教堂遭袭之后,语调几乎是“急转直下”。仅仅过了几周,大规模示威游行出现并最终于2月11日推翻穆巴拉克政权:
“民怨积累到一定程度就会爆发社会动荡,”李塔鲁说。“但这并不是说我们可以预测到未来两周内哪条街上会出现骚乱。我们还没到这个程度。我们更切实的目标是衡量测算大背景。”
李塔鲁也注意到,这段时间埃及的GDP处于上升趋势,而这个指标一直是用来衡量社会稳定程度的。但是,他认为,胡斯尼•穆巴拉克总统失去了民众对他“提供安全能力”的信心,媒体报道情绪的变化说明其“全球合法性”的丧失。
这项研究的实际意义在哪里呢?李塔鲁观察到美国总统巴拉克•奥巴马在示威活动初期的言辞谨慎。“不管高层的评估结果如何,至少媒体对于[穆巴拉克]继续掌权持强烈怀疑的态度。”但如果白宫有机会去接触李塔鲁的超级新闻发掘机鹦鹉螺呢?也许奥巴马就会早些看出穆巴拉克的大限将至了。
当然,达到实时预测水平仍然是长路漫漫。观察业已发生的事件再回头寻找事发之前的蛛丝马迹跟在事件还没发生之前就侦测到这些蛛丝马迹显然不是一回事。还必须注意的一点是,这种方法对已经发生的事件的“预测”率还不到100%。由于缺乏相应的新闻报道素材,引发突尼斯和利比亚革命的蛛丝马迹没有那么明显。不过李塔鲁现在的目标是让预测结果实时化。就连拥有1024核心处理器的鹦鹉螺要立即计算和解读这些结果也有些勉为其难,要知道最顶级的苹果电脑也才拥有12核心处理器啊。可是一旦这一天到来,技术将带到巨大的变化。
“比如说伦敦市长在骚乱一周前就察觉到他管理的城市正陷入动荡,他的政策已经到了揭竿而起的沸点,”李塔鲁建议说,“如果他得到了那些信息,他是采取紧急措施缓解社会矛盾呢,还是在动乱蔓延之前就调兵遣将未雨绸缪呢?”
李塔鲁不仅可以利用这些应用程序来开展这种时间预测研究,他还能做到空间预测。他对从20世纪90年代末到今年五月奥萨巴•本•拉登被剿灭为止涉及拉登报道进行了梳理,发现将近49%的报道提到这个基地组织头目时会附带提及巴基斯坦的一座城市。李塔鲁总结认为,全球新闻内容“可能已经道出本•拉登最有可能的藏身之所:巴基斯坦北部以伊斯兰堡和白沙瓦为圆心,200公里为半径的区域。”(谷歌与美国疾病预防与控制中心也研发了类似的项目,利用新闻搜索结果来跟踪流感传播路径。)
本周,李塔鲁这几段论文受到媒体的广泛关注,但最不靠谱。要是用常理推断得出本•拉登藏身于巴基斯坦,有1亿篇报道同意这个观点直的那么重要吗?(加州大学洛杉矶分校的教授也费了九牛二虎之力利用生物地理信息追踪本•拉登下落的结果确实验证了大多数的猜测)。你也不要指望能找到利比亚遁逃的领导人。“我们还没到坐在电脑面前输入‘卡扎菲’就能找到他的藏身之所的水平,”李塔鲁表示。
尽管有这么多局限,但是李塔鲁的研究成果预示着将来有一天,这种数据挖掘工作将成为政治学家的日常研究工具手段之一,就像现有的数学建模和市场预测一样。
美国情报界似乎想把宝押在这上面,从最近国家情报总监下属的臭名昭著的部门情报先进研究项目署(Intelligence Advanced Research Projects Activity)向学术界发出的英雄贴就能看出来。该机构要求“综合公开各种消息来源的不同类型数据,从而侦测无法预知的事件”的方法。
“人们说到信息的汪洋大海,”李塔鲁说。“我们已经花了过去数十年来查找波浪。隐藏在水面以下的深海还有大量未知的信息,我们的求索之路才刚刚开始。”