我的“机器写作”探索 编辑本段回目录
在2001年的时候,我突然迫切地想要写一本书。就跟很多人一样,我也曾天真地以为,“每个人心里都有一本书”,好像写书不过就是提起笔再搁到纸上那么简单。事实证明,写作其实是件费时费力的事情;在动笔之前,你还要花费数不尽的时间,围绕你选择的话题去学习,去调查,去梳理。不过,我在这条道路上激流勇进;短短五年时间里,我已经独立或者合作完成了10本书——我还真是个吃得苦中苦的人。
那段时间,我的本职工作是编程。我的编程生涯至今已经长达16年了。在我整个职业生涯中,我主要关注的问题包括可自动化和不可自动化(un-automatable)。从本质上来说,我的工作就是让计算机完成那些人们以前从未想过他们能做的事情。正当我开始写第10本书的时候,我又突然迫切地想做另一件事:我希望我的写作生涯也变得自动化。我开始对沉闷乏味的写书过程感到厌倦,书的报酬也不见得有多好。
不过这听起来太扯淡了,是吧?计算机怎么可能写出连贯、有意义的文字呢?更不用说那些有趣的内容了。“计算机怎么可能……?”,这类问题正是我穷尽自己的职业生涯想要尽力回答的问题。因此,我便开始着手设计能够自动写作的软件。当然,这个问题的难度比我写10本书的难度加起来还要大。不过,在我招募成立了一个由12个人组成的团队后,我们的软件便能够在9个月内“生成”超过10万篇有关运动的故事了。
在我开始介绍这款软件产品的具体细节之前,我觉得有必要先强调一下它的几点特性,正是这些特性使得软件也能成为表现优异的作家候选人。
- 软件不会碰上文思枯竭的写作瓶颈,还可以昼夜不停地工作。
- 软件不会因为你支付的钱不够多,就停止帮助你组织汇总集体诉讼文件(这一点有别于“内容农场”,“内容农场”指的是那些图谋广告等商业利益的专业公司)。
- 软件不会感到厌烦,也不会质疑自己是如何开始自动写作的。
- 软件可以不断重新编程,不断代码重构,不断改进提升。
- 软件乐于接受各种各样人群的信息输入。这一点有别于传统写作,以往的写作者总是希望保持清静,一个人待着就好(如果要算上编辑的话,那就是“两个人待着就好”)。
- 也许最重要的一点在于,与一个人独立写作(甚至一群人合作写作)相比,软件能够访问和分析的数据资料要海量得多。
不过,软件并不是万能的。从目前的技术来看,并不是所有内容都是易于自动化的。我所在的“自动化透视”(Automated Insights)公司所自动化的内容类型是面向数量的。这就是关键之所在。我们是通过赋予数字和数据以特定的含义来实现自动化的。我们涉足的第一个领域就是体育运动。体育运动在本质上就是数据,大量的数据。根据我们内部估计,所有关于运动的文章中,有70%的内容都是在以这种或那种形式来分析数据。
我们的软件技术结合了一个大型的结构数据数据库、一个统计数据的实时馈送系统和一个大型的词组数据库,并通过算法将它们联结在一起,从而自动生成长度为二个至八个段落不等的各种文章。其中,算法通过分析数据间的有趣关联或模式,来决定生成文章的内容。
2010年10月,我们启动了“统计表单网络”(StatSheet Network)网站,其中包含了345个站点,覆盖了全美大学生篮球联赛(NCAA)的每一支篮球队,分别单独报道各自的体育赛事和球赛信息。这家网站的内容全部是自动生成的。你可以在这里看到我最爱球队的更新:北卡罗来纳柏油脚跟队。
我们不仅可以像传统篮球站点那样,呈现文字信息、照片、视频等数据信息,还为些网站或博客提供“嵌入”(Embed)服务,将历史或实时数据、图表和其他图形元素整合到某个特定的网站上。我们会自动生成14种不同类型的文章,囊括比赛简报、本周前瞻、历史回顾等诸多题材。最近,我们还为全美职业棒球大联盟(MLB)的每支队伍创建了相似的网站(猛击这里看底特律老虎队页面)。在不久的将来,我们还将为全美橄榄球联盟(NFL)、全美大学生足球联赛提供服务。
体育运动类仅仅是我们正在尝试的其中一个研究方向。此外,我们也曾涉及到金融、房地产和其他数据密集型的产业。不过,不要把你的思想局限在那些可能完成的事情上。我们还源源不断地接到来自其他非数据显性行业的邀请,例如药物临床试验机构,甚至域名注册商。只要这个领域有大量的数据集合,人们也正在努力赋予这些数据以特定的含义,那么这就是我们这项技术潜在的发展方向。
“自动化 + 人类”,而不是“自动化 PK 人类”
想要开发出一款能够自动写出长篇叙事文章的软件,这是非常困难的事情,它需要解决各方面的有趣问题,包括人工智能、机器学习和自然语言等。不过,只要将它和才能(还有资金)正确组合起来,我们目前已经能够做到了。这也确实需要使用者对软件运行和书面文字的协同工作有着极为深刻的认识。
我总是听人说,软件写出来的散文肯定很平淡、很僵硬。不过,这只表明软件使用者写的散文也是很平淡、很僵硬的。软件跟所有的作家一样,都是自以为是的。
记者经常问我一个有趣的问题:“你什么时候能开发个自动化系统,让我也失业算了?”我觉得这个问题很可笑,是因为提出这个问题是基于软件已经能够就任意话题写出完美的文字。假如真的到了那个时候,就不会有人想要试图以写字为生了。这样的情况是不会发生的。真实发生的情况是,不少媒体公司正在使用我们的软件来扩展他们的业务。起初,这些公司借助软件来生成一些特定话题的文字,这些内容在媒体上较难找到足够的资料。后来,公司将我们生成的文字交由编辑人员审核修改后,使之符合出版商的特定需求。所以,人的工作还是必不可少的。人类可以不用花太多时间在那些纯数字的写作上面,不过这点应该自由随性才好。现在,人们可以更关注于品质性的、有附加值的评论,这些才是人类天生擅长的部分。至于数字性的部分,可以,可能也应当,主要由更擅长它的计算机来自动完成。
此外,软件还能够使“超本地化”(hyperlocal)内容成为可能,甚至从中牟利。不少企业都在致力于研究“超本地化”问题,不过收效甚微。想要将内容创建扩展到美国的每个角落(甚至是整个世界),这实在并非易事。但对特定的类别(例如高中的体育运动)来说,软件生成的内容在逻辑上几近完美。在未来的几年里,你会看到自动生成的内容将在这一领域占据着愈加重要的地位。
软件自动生成的书?
最近,由于我的精力大都放在自动化透视的公司事务上,所以我还腾不出时间去写新书。我跟我的一位同事说,我们应该让软件信马由缰地跑一通,让它替我写出我的下一本新书吧。他望着我,不解地问:“它怎么可能做到呢?”嗯,这正是我想听到的问题。
然而,由软件来自动写书,这实际上可行吗?我们的软件现在已经可以自动生成八个段落的文字了,但是生成八个章节的内容,这可能吗?答案是肯定的。不过它写出来的书肯定跟我过去写的技术性书籍完全不同,至少目前是这样。我们很容易就能把我们的技术应用到更长的文章上。这并不是重点。我们的软件在定量分析结构数据这方面是极其出色的。
我以前写的书都不是基于数据的,都是自然语言的定性描述。我收集了自己的经验知识,展开了若干补充性的研究,以最佳的运行方式做出了判断,然后将其记述成文。但对于软件架构来说,我们还处在刚起步的初级阶段,要完成像这样复杂的定性分析,还有很长的路要走。目前,软件写作的主要用途是自动生成重复性类型的内容。这在写书的问题上并不适用。
所以,奥莱利出版公司(O'Reilly)的作家们在短期内实在无须担忧什么。不过,至于自动化技术以后怎样发展,我可就说不准了。
作者简介
罗比·艾伦(Robbie Allen),自动化透视(Automated Insights)公司创始人兼CEO,前思科公司IT部门杰出工程师,曾获麻省理工学院土木与环境工程及系统设计及管理学硕士学位。独立或合作发表了十本著作,内容涵盖了技术的各个领域。