科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 6018 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2011-11-12
高兴
高兴
发短消息
相关词条
重新定义公司
重新定义公司
学术自由的宪法基础
学术自由的宪法基础
TED中国化之路
TED中国化之路
智慧经济
智慧经济
学习方法论
学习方法论
山寨文化与社会解构运动
山寨文化与社会解构运动
互联网思维经济学逻辑
互联网思维经济学逻辑
互联网与资本主义
互联网与资本主义
集体智慧
集体智慧
可删除互联网
可删除互联网
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

目录

我的“机器写作”探索 编辑本段回目录

罗比·艾伦是位有16年编程经历的工程师,也曾是一位勤恳的图书作者。不过正当他开始写第十本书时,他突然地想做另一件事:用软件自动化写作。如今他的团队已通过软件在9个月内“生成”了10万多篇有关体育的文章。接下去他能用软件自动完成一本书吗?

  在2001年的时候,我突然迫切地想要写一本书。就跟很多人一样,我也曾天真地以为,“每个人心里都有一本书”,好像写书不过就是提起笔再搁到纸上那么简单。事实证明,写作其实是件费时费力的事情;在动笔之前,你还要花费数不尽的时间,围绕你选择的话题去学习,去调查,去梳理。不过,我在这条道路上激流勇进;短短五年时间里,我已经独立或者合作完成了10本书——我还真是个吃得苦中苦的人。

  那段时间,我的本职工作是编程。我的编程生涯至今已经长达16年了。在我整个职业生涯中,我主要关注的问题包括可自动化和不可自动化(un-automatable)。从本质上来说,我的工作就是让计算机完成那些人们以前从未想过他们能做的事情。正当我开始写第10本书的时候,我又突然迫切地想做另一件事:我希望我的写作生涯也变得自动化。我开始对沉闷乏味的写书过程感到厌倦,书的报酬也不见得有多好。

  不过这听起来太扯淡了,是吧?计算机怎么可能写出连贯、有意义的文字呢?更不用说那些有趣的内容了。“计算机怎么可能……?”,这类问题正是我穷尽自己的职业生涯想要尽力回答的问题。因此,我便开始着手设计能够自动写作的软件。当然,这个问题的难度比我写10本书的难度加起来还要大。不过,在我招募成立了一个由12个人组成的团队后,我们的软件便能够在9个月内“生成”超过10万篇有关运动的故事了。

  在我开始介绍这款软件产品的具体细节之前,我觉得有必要先强调一下它的几点特性,正是这些特性使得软件也能成为表现优异的作家候选人。

  • 软件不会碰上文思枯竭的写作瓶颈,还可以昼夜不停地工作。
  • 软件不会因为你支付的钱不够多,就停止帮助你组织汇总集体诉讼文件(这一点有别于“内容农场”,“内容农场”指的是那些图谋广告等商业利益的专业公司)。
  • 软件不会感到厌烦,也不会质疑自己是如何开始自动写作的。
  • 软件可以不断重新编程,不断代码重构,不断改进提升。
  • 软件乐于接受各种各样人群的信息输入。这一点有别于传统写作,以往的写作者总是希望保持清静,一个人待着就好(如果要算上编辑的话,那就是“两个人待着就好”)。
  • 也许最重要的一点在于,与一个人独立写作(甚至一群人合作写作)相比,软件能够访问和分析的数据资料要海量得多。

  不过,软件并不是万能的。从目前的技术来看,并不是所有内容都是易于自动化的。我所在的“自动化透视”(Automated Insights)公司所自动化的内容类型是面向数量的。这就是关键之所在。我们是通过赋予数字和数据以特定的含义来实现自动化的。我们涉足的第一个领域就是体育运动。体育运动在本质上就是数据,大量的数据。根据我们内部估计,所有关于运动的文章中,有70%的内容都是在以这种或那种形式来分析数据。

  我们的软件技术结合了一个大型的结构数据数据库、一个统计数据的实时馈送系统和一个大型的词组数据库,并通过算法将它们联结在一起,从而自动生成长度为二个至八个段落不等的各种文章。其中,算法通过分析数据间的有趣关联或模式,来决定生成文章的内容。

  2010年10月,我们启动了“统计表单网络”(StatSheet Network)网站,其中包含了345个站点,覆盖了全美大学生篮球联赛(NCAA)的每一支篮球队,分别单独报道各自的体育赛事和球赛信息。这家网站的内容全部是自动生成的。你可以在这里看到我最爱球队的更新:北卡罗来纳柏油脚跟队

  我们不仅可以像传统篮球站点那样,呈现文字信息、照片、视频等数据信息,还为些网站或博客提供“嵌入”(Embed)服务,将历史或实时数据、图表和其他图形元素整合到某个特定的网站上。我们会自动生成14种不同类型的文章,囊括比赛简报、本周前瞻、历史回顾等诸多题材。最近,我们还为全美职业棒球大联盟(MLB)的每支队伍创建了相似的网站(猛击这里看底特律老虎队页面)。在不久的将来,我们还将为全美橄榄球联盟(NFL)、全美大学生足球联赛提供服务。

  体育运动类仅仅是我们正在尝试的其中一个研究方向。此外,我们也曾涉及到金融、房地产和其他数据密集型的产业。不过,不要把你的思想局限在那些可能完成的事情上。我们还源源不断地接到来自其他非数据显性行业的邀请,例如药物临床试验机构,甚至域名注册商。只要这个领域有大量的数据集合,人们也正在努力赋予这些数据以特定的含义,那么这就是我们这项技术潜在的发展方向。

“自动化 + 人类”,而不是“自动化 PK 人类”

  想要开发出一款能够自动写出长篇叙事文章的软件,这是非常困难的事情,它需要解决各方面的有趣问题,包括人工智能、机器学习和自然语言等。不过,只要将它和才能(还有资金)正确组合起来,我们目前已经能够做到了。这也确实需要使用者对软件运行和书面文字的协同工作有着极为深刻的认识。

  我总是听人说,软件写出来的散文肯定很平淡、很僵硬。不过,这只表明软件使用者写的散文也是很平淡、很僵硬的。软件跟所有的作家一样,都是自以为是的。

  记者经常问我一个有趣的问题:“你什么时候能开发个自动化系统,让我也失业算了?”我觉得这个问题很可笑,是因为提出这个问题是基于软件已经能够就任意话题写出完美的文字。假如真的到了那个时候,就不会有人想要试图以写字为生了。这样的情况是不会发生的。真实发生的情况是,不少媒体公司正在使用我们的软件来扩展他们的业务。起初,这些公司借助软件来生成一些特定话题的文字,这些内容在媒体上较难找到足够的资料。后来,公司将我们生成的文字交由编辑人员审核修改后,使之符合出版商的特定需求。所以,人的工作还是必不可少的。人类可以不用花太多时间在那些纯数字的写作上面,不过这点应该自由随性才好。现在,人们可以更关注于品质性的、有附加值的评论,这些才是人类天生擅长的部分。至于数字性的部分,可以,可能也应当,主要由更擅长它的计算机来自动完成。

  此外,软件还能够使“超本地化”(hyperlocal)内容成为可能,甚至从中牟利。不少企业都在致力于研究“超本地化”问题,不过收效甚微。想要将内容创建扩展到美国的每个角落(甚至是整个世界),这实在并非易事。但对特定的类别(例如高中的体育运动)来说,软件生成的内容在逻辑上几近完美。在未来的几年里,你会看到自动生成的内容将在这一领域占据着愈加重要的地位。

软件自动生成的书?

  最近,由于我的精力大都放在自动化透视的公司事务上,所以我还腾不出时间去写新书。我跟我的一位同事说,我们应该让软件信马由缰地跑一通,让它替我写出我的下一本新书吧。他望着我,不解地问:“它怎么可能做到呢?”嗯,这正是我想听到的问题。

  然而,由软件来自动写书,这实际上可行吗?我们的软件现在已经可以自动生成八个段落的文字了,但是生成八个章节的内容,这可能吗?答案是肯定的。不过它写出来的书肯定跟我过去写的技术性书籍完全不同,至少目前是这样。我们很容易就能把我们的技术应用到更长的文章上。这并不是重点。我们的软件在定量分析结构数据这方面是极其出色的。

  我以前写的书都不是基于数据的,都是自然语言的定性描述。我收集了自己的经验知识,展开了若干补充性的研究,以最佳的运行方式做出了判断,然后将其记述成文。但对于软件架构来说,我们还处在刚起步的初级阶段,要完成像这样复杂的定性分析,还有很长的路要走。目前,软件写作的主要用途是自动生成重复性类型的内容。这在写书的问题上并不适用。

  所以,奥莱利出版公司(O'Reilly)的作家们在短期内实在无须担忧什么。不过,至于自动化技术以后怎样发展,我可就说不准了。


作者简介


罗比·艾伦(Robbie Allen),自动化透视(Automated Insights)公司创始人兼CEO,前思科公司IT部门杰出工程师,曾获麻省理工学院土木与环境工程及系统设计及管理学硕士学位。独立或合作发表了十本著作,内容涵盖了技术的各个领域。

参考文献编辑本段回目录

http://dongxi.net/b131T

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 机器写作

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。