算法时代的写作艺术-阿里云开发者社区

不久前，美联社宣布，从今年7月开始将启用Automated Insights开发的程序撰写公司财报。只要输入一些数据，如公司收益报表之类，这个聪明的程序就能在几秒钟之内给你生成一篇新闻报道：
迪斯尼第一季度利润上升33%，超过分析师预期。

伯班克，加利福尼亚（AP）－迪斯尼公司（DIS）报告其第一财政季度净利润增长33%，超出分析师预期。

迪斯尼，总部设在加州伯班克，在本季度收益为18.4亿美元，去年同期则为13.8亿美元。每股收益从77美分攀升至1.03美元，Zacks分析师的平均预期为每股92美分。收入从113.4亿美元上升了9%，至123.1亿美元，分析师预期为118亿美元。

虽然算不上什么了不得的文章，但毕竟抓住了语言的要点，流畅、自然，除非特别提醒，一般人很难觉察出自机器人之手。据称截至今年底，美联社将用此方式完成4400篇财报新闻，效率是人类记者的15倍（美联社并不是第一个启用机器人记者的大型新闻机构，福布斯网站早在两年前就已经启用Narrative Science的程序自动生成财经新闻）。

机器人写作这种事情，20年前还是科幻小说的情节，如今正迅速变成一个简单的事实。

今年初洛杉矶4.7级地震的第一个报道者就是一位机器人记者——Quakebot。Quakebot是《洛杉矶时报》自己内部研发的一个程序，能实时监控美国地质调查局（USGS）的信息，一旦出现警报（表示发生了一定级别以上的地震），就自动提取相关数据，并置入一个预先写好的模板，自动生成一篇文稿，并进入《洛杉矶时报》的内容管理系统，等待编辑的审查和发布。在此之前，他们还有另外一个类似的机器人程序，专门自动报告洛杉矶发生的凶杀案。

世界第一台可运行程序的计算机——曼彻斯特Mark1

此外，机器人记者们还在一些小众领域找到了市场——高中生体育赛事报道、游戏赛事报道、房地产报告、装修潮流报告、快餐公司的销售报告等等。它们能以报道职业棒球联赛的翔实态度报道一场发生在一群小屁孩之间的棒球比赛，以报道伊拉克战争的郑重其事报道《魔兽世界》的一场副本之战。去年Automated Insights的算法一共生产了3亿个故事，今年则预计达到10亿个故事，他们已经是世界上最大的内容生产商。

长久以来，科幻小说和电影为我们预设了太多关于智能机器人的想象——《2012太空漫游》里忧郁的哈尔、《A.I.》里悲伤的大卫、《星际旅行》里可爱的数据先生、《银河系漫游指南》中偏执的马文等等，以至于我们看不到身边正在发生的一切。事实上，我们正生活在一个越来越由人工智能所定义的世界里——搜索引擎引导我们在庞杂的信息之间穿梭，告诉我们哪些信息更重要，更有用，更值得关注；推荐算法根据我们的兴趣和品味，告诉我们应该看什么电影，读什么书，听什么歌；社交网站上各种热门查询算法告诉我们应该跟踪什么潮流与八卦；算法打理我们的社交圈、投资理财，甚至协助制定社会政策；警方利用谷歌地图和犯罪数据、社交媒体决定在哪里巡逻；算法比任何保险公司或银行都了解你的风险状况；算法据称还能编写出有灵魂的音乐，在伦敦交响乐团的演奏之下，竟然没有人能听出区别。

在这样一个美丽新世界里，算法为我们写点新闻报道实在算不得什么。况且，像地震、火灾、财经这些快讯新闻，真是不如由算法来写更便宜（500字的文章不到10美元）、更高效（生成一篇体育报道只要几秒钟），甚至更准确——就从庞杂的数据中寻找模式和意义而言，计算机早已将人类远远地甩在后头。

真正令人兴奋的，或者说不安的是，Narrative Science的联合创始人克里斯蒂安·哈蒙德（Kristian Hammond）两年前在《连线》杂志的采访中所宣称的，计算机将在未来15年内写作90%的新闻。他还预测，他们的算法将在5年内获得普利策奖。

“人工智能之父”阿兰·图灵

如果哈蒙德是一个满嘴跑火车的商人，我们大可以对这样的预言一笑而过。但他是受人尊敬的计算机科学教授，20多年来一直站在人工智能研究的最前沿。早在90年代中期，他就开发了一套可追踪用户阅读、写作习惯并向用户推荐相关内容的系统，之后一直在美国西北大学担任情报信息实验室的主任。Narrative Science的算法原型Stats Monkey（搜集各大学、中学的体育赛事得分和相应数据，并将数据转化为文字）就是他和他的学生们在一门关于编程与未来新闻的课程上开发出来的。

作为人工智能的终极梦想之一，“一个会写作的机器人”就像“一个会思考的机器人”一样，贯穿于人工智能研究的整个发展历程。早在1948年，世界第一台可运行程序的计算机——曼彻斯特Mark1的“处女作”就是一个写情诗的小程序。那时候，计算机还是一个庞然大物，主要功能是做大型的数学运算，但一个名叫克里斯托弗·斯特雷奇的科学家却突发奇想，编了这么个罗曼蒂克的小程序。它能根据简单的语法规则，从一个小型的浪漫词汇库（几百个关于浪漫爱情的动词和名词组成）中选择词汇，创作一些轻松的爱情诗。比如：“亲爱的，你是我贪婪的迷恋，你是我可爱的迷恋，你是我珍爱的同情。我渴慕你的爱情，你是我深深的爱恋。”（Jewel Darling，you are my covetous infatuation. My lovely infatuation. You are my precious sympathy. My precious desire impatiently adores your fancy. You are my avid fancy.）

斯特雷奇是阿兰·图灵的好朋友，是人工智能领域的先驱之一，也是第一个在计算机上写跳棋程序的人。60多年过去了，就棋力的角逐而言，计算机已经能击败世界一流的棋手（IBM的超级计算机“深蓝”击败了国际象棋大师加里·卡斯帕罗夫），但它还远远未能写出一篇能与三流人类作家相媲美的作品。这很大程度上是因为人类语言与文字太过复杂多变，没有哪一套规则可以涵盖一门语言，遵循一条规则就必定会打破另一条规则。

2008年，俄罗斯的Astrel SPb出版社出版了有史以来第一本机器人写的长篇小说《真爱》，主人公借自《安娜·卡列尼娜》（安娜、沃伦斯基、列文、基蒂），情节来自从17本经典小说中抽取的情节库，行文风格则模仿村上春树。据《彼得堡时报》报道，PC Writer 2008先生只花了3天就写完了这本320页的小说（当然，一堆语言学家与程序员捣鼓PC Writer 2008先生就花了8个月），并发行1万本。出版社表示，如果这本书卖得好，以后还会继续推出机器人写的小说。但整个事件从此再无下文，如同一场行为艺术，甚至有人怀疑作者也许根本不是机器人。

克里斯蒂安·哈蒙德认为，从理论上来说，算法要写一个短篇小说完全是可能的，甚至可能是一个“完美”的短篇，只要善于利用所有我们关于语言与文学叙事的知识。但这并不是他所追逐的目标。事实上，从80年代开始，人工智能研究已经经历了一次根本性的转型——从对人类大脑的模仿和对人类思维的理解，转向以大数据、机器学习为基础，让机器聪明地解决人类的各种具体问题。30年来，它渗入重工业、交通和金融等多个领域。许多Google的核心功能都是由人工智能驱动的，还有Netflix的电影推荐，IBM的沃森人工智能系统，苹果的人工智能助理Siri，无人机以及自动驾驶汽车等。

信息爆炸是我们这个时代最大的问题之一。互联网产生了大量的数据，但我们大多数人更习惯用故事，而不是数字思考。我们甚至根本不喜欢数字。所以，对今天的机器作者而言，重点不在“创造”，甚至不在“语言”，而是帮助人们理解数据的意义和价值。它们针对大数据集，研究其中模式、趋势和相关性，攫取有价值的见解，并以平实流畅的语言写成文章。正如哈蒙德所说：“凡是有数字的地方都应该有故事。机器作者的价值在于作为数字与故事之间的中介。”

机器人到底是怎么采写故事的呢？
首先要采集大量高质量的数据，建立一个庞大的数据库。体育和财经领域都涉及大量波动性很大的数据：每股收益、股价变化、垒球投手责任得分率（ERA）以及棒球打点（RBI）等。尤其是体育报道，现在很多体育赛事都有摄像头跟踪运动员的每一个动作，从而产生大量的数据。

然后，从这些数据中“计算”出哪些有新闻价值，哪些只是噪音而已。算法怎么判断一则信息的新闻价值呢？所谓偏离常态者为新闻，翻译成机器人的语言就是“关注异常数据”，如最小值、最大值、异数、大起大落、被超越的阈值等等。如果一个球队的获胜概率在两场比赛之间出现大的变化，就意味着一些重要的事情发生了。不久前在哥伦比亚新闻学院的一次研讨会中，Narrative Science透露正在研发一个能进行编辑判断的系统，将更多的新闻价值观内置于算法之内，“算法会决定什么故事值得写，故事应该怎么写，以及展示给什么样的读者看”。

第三，选择故事的“角度”。角度是一种解释或者叙事结构，以确保故事的一致性。这些角度通常由专业记者根据各自领域的报道逻辑和路径为其量身定做叙事模版（这些记者又称“元作者”），如一项体育赛事的报道角度可能是“拉锯战”、“英雄式个人表演”、“强大的团队合作”或者“咸鱼翻身”等等。算法还会按照重要性对各种可能的角度进行排序，并由此形成文章的整体结构。

第四，将当下的数据嵌入模版，并按“元作者”提供的词汇生成句子。

做了10年记者，我每天的工作与我的机器人同行似乎并无大的差别：首先登录六七个新闻网站，打开几十篇文章，一边迅速浏览每篇文章的标题，一边飞快地盘算着这个题目好不好玩，能不能为我所用？如果不好玩，立刻跳过，如果好玩，我的脑子又是另一番斗争：“会有读者关心这个问题吗？我还能找到一个更独特的视角吗？”在这个过程中，我还得时不时刷刷微信，泡泡微博，无端消磨点时间，或者被一两个电话打断，远没有我的机器人同行来得专心致志。

一直以来，我们都相信人类与文字的关系如此独特而深刻，没有任何程序能够复制写作的体验。但在分析这些算法的过程中，你会惊奇地发现，写作的过程——那个我们认为神秘而不可预测的过程，在多大程度上是可以量化和建模的。尤其是新闻写作，从故事的构思、素材的采集、组织与整理、文章结构的处理，到最终的遣词用句，大都有模式和规则可循。只要有模式和规则，就有算法的用武之地。可以想象，在不久的将来，某家著名报社的文体结构，某位专栏作家的论辩方式，某位普利策奖得主的犀利文风都会被陆续纳入算法的叙事“模版”……同一篇报道，它们既可以写出《华尔街日报》式的冷静内敛，也能表现更活泼的博客风格，或者根据雇主的要求，随时添加点儿笑话或毒舌评论。至于文笔？我还相信将来一定会有人开发出某些程序，能对我的机器同行的文字进行工匠式的精雕细琢，还有像“海明威App”这种应用试图教我们人类如何写出海明威的风格呢。

随着这个世界日益的数据化，随着数据的采集从文本逐渐扩展到从神经生理学、情绪等非语言数据，机器人的用武之地将会陆续扩大，它们不会仅仅满足于体育、财经快讯式的报道，而是在重大新闻的报道上与人类记者一争长短。事实上，各大社交媒体上已经可以看出战争的端倪，比如谷歌的德国工程师托马斯·斯坦纳开发的Wikipedia Live Monitor，这个程序实时监控维基百科上287种语言的词条，寻找短时间内狂热编辑的条目——如果很多人在用不同的语言编写同一个事件的词条，则说明有重大事件正在发生。然后这个程序还会检查Facebook、Google+和Twitter，判断是否真的有大新闻发生。据斯坦纳所说，他的程序第一时间发出了关于波士顿马拉松爆炸案与马航失联航班的新闻。如果哈蒙德的预言成真，不久的将来果真有算法获得普利策奖，对我们这些人类记者而言意味着什么呢？

或许这是我们唯一可以安慰自己的地方：人工智能在60多年的发展历程中不断地在人类的智识领域攻城略地，但始终未能真正通过图灵测试，这也意味着人类始终保持着唯一的思考者地位。而且，我们人生每一个短暂的瞬间都沉浸在机器所无法量化的“数据”之中——呼吸、走路、阳光透过枝桠照到脸上的感觉。机器可以根据格式和语法规则写一首诗，或者一篇小说，它可以选择华丽的词汇，写出流畅的句子，但它不会对任何一个词的优美，或者一个句子的独特产生满足感。全世界的数据加起来，也无法让一个程序理解爱、悲伤或恐惧。但真正的新闻佳作最终都是关于人的。至少我最好的文章从来不是来自数据，而是来自采访，来自交谈，来自旅行，来自人生经验，以及漫步时偶然出现在脑海里的灵光一现。

原文发布时间为：2014-09-19

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

算法时代的写作艺术

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景