[转载]Siri会说话的秘密

原文链接

Siri会说话的秘密:终极目标是“杀死人类”
iPhone 4S内置Sari系统

Siri会说话的秘密:终极目标是“杀死人类”
Sari公司原联合创始人兼CEO 戴格·吉特拉斯

10月4日,苹果iPhone 4S手机发布。不久,其内置的个人语音助理Siri引爆大众关注。10月25日,就在Siri获得巨大关注时,Siri公司原联合创始人兼CEO戴格·吉特拉斯宣布从苹果离职。吉特拉斯在Twitter中透露了他们为Siri设定的目标路线图。

第一阶段:阶段性人类;第二阶段:完全是人类;第三阶段:超越人类;第四阶段:杀死人类。就像机器HAL9000在《2001 太空漫游》里干的事情一样。

10月4日,苹果iPhone 4S手机发布。在发布会上,个人语音助理Siri并未引起轰动。但在进入实际生活场景后,Siri引爆了大众关注。

人们以调戏Siri为乐,在网站“Shit that Siri Says”(看看Siri说了啥)上,用户已经上传了近千条和Siri的对话实录,在Facebook上受到热捧。人们热衷于问它一些困难的问题,而它总是回答得出人意料。

有人问:“如果一只土拨鼠能够抛木头,它能抛多少木头?”(编注:一个英语绕口令)

Siri的回答也是一个绕口令:“如果一只土拨鼠能够抛木头,它能抛多少木头就抛多少木头。”

还有人问:“你是一个智能手机吗?”

Siri的回答很经典:“等等……还有别的手机吗?”

Siri在苹果的官方宣传中是个“智能个人语音助理”,具体的使用场景是这样的:你对着iPhone说一句话,“旧金山剧院附近的意大利餐馆”,Siri会做语音识别和自然语言理解,迅速查一些数据库,然后回答“离你不远哦,最近的一家走路十分钟”,并附上具体的地址、地图展示给你。再比如,你在开车时,对它说:“告诉我老婆我要迟到十分钟”,它会在通讯录里找到你的妻子,并发送这条消息给她。

这已经接近人们想象中和电脑交流的方式。《纽约时报》撰文称:Siri代表着苹果的商业未来,也预示着未来“搜索”的形态。

这一切是如何做到的?人们有种种猜测。有个流传甚广的笑话:“Apple在印度的海德拉巴建了一个巨大的用户响应中心,所有用户和Siri的问题都被传到这里,然后三哥三姐们飞快的打字回答。Apple内部把这个叫印度云(Indian cloud),简称iCloud。”

真实的故事是,Siri脱胎于一个庞大的国防部项目,是一家总部位于旧金山的同名小公司,它诞生于2007年12月经济危机的寒冬中。2010年4月,苹果公司以2亿美元收购了这家公司,并将整个团队招致麾下。

10月25日,就在Siri获得巨大关注时,有媒体爆出,Siri公司原联合创始人兼CEO戴格·吉特拉斯(Dag Kittlaus)将从苹果离职。他自己称希望能搬到芝加哥,离家人更近,并能有时间开创新事业。

事实上,关于Siri,最伟大的事情并非人工智能本身,而是苹果通过Siri把人工智能带进了现实生活。其实Siri并没有什么革命性的技术,本质上是把各种已经比较成熟的技术融合成一个产品,最终呈现给用户。

Siri背后的人

Siri发源于史上最大的人工智能项目:五角大楼的CALO项目。CALO是“Cognitive Assistant that Learns and Organizes”的缩写,该项目主要目标是:开发一个智能的个人助手系统。这个项目汇集了全球25所顶级大学和商业研究机构的300多名研究人员。在2007年该项目结束时,协作方之一的斯坦福国际研究院(SRI International)成立了Siri。

整个CALO计划的带头人名叫亚当·奇也(Adam Cheyer),他也是Siri的联合创始人之一,现任苹果iPhone团队工程总监。Siri公司的原首席技术总监汤姆·格鲁伯(Tom Gruber)也是出身斯坦福大学的人工智能、语义网专家。CALO项目的关键员工、后来成为Siri公司董事的诺曼·温那斯基(Norman Winarsky)在接受媒体采访时说:“那时,我们意识到其中有难以置信的商业机会,我的任务是为这个新项目获得资金。于是,我找来当时摩托罗拉的高管戴格·吉特拉斯,语义网天才格鲁伯和CALO主架构师亚当·奇也创立了这家公司。”

在《麻省理工技术评论》的采访中,奇也表示:“CALO早已开始探索如何把对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考等全部融合到一个模仿人类的助理中,帮助人们完成不同的事情。”

亚当·奇也表示,过去四年,他和他的团队一直在钻研如何优化CALO,使其能够在一台强大的移动电话中发挥效用,每天都能被成千上万的用户使用。过去一年半,他们把主要精力放在Siri技术和iOS及其应用程序的整合上。

2008年10月,Siri获得第一轮约850万美元融资。谷歌趋势(Google Trends)关键词搜索历史显示,那是Siri第一次受到公众关注,当时Siri的高层对于他们究竟想要做什么闪烁其辞。他们的宣传语这样写着:全新的互动模式,拥有连接互联网消费者的智能界面。CEO戴格·吉特拉斯那时对媒体说:“现阶段我们必须小心,我们不想说很多,以免让竞争对手了解太多,激发灵感。”这些竞争对手很可能是那些互联网界的巨头,雅虎、谷歌或微软,在人工智能领域,他们都有各自的发展计划。

那时,吉特拉斯就表示,他们已经为Siri想好商业模式。“我们认为,采用CPA(编注:每次行动的费用)的定价模式,即根据每个访问者对特定网站所采取的行动进行收费很适合Siri。”

Siri最早的投资人格雷·摩根泰勒(Gary Morgenthaler)同意他的观点。他在最近接受媒体采访时说:“Siri能友好地将你带往你想去的地方,做成你想做的事情,CPA的模式对于服务提供商来说再好不过。无论是苹果,还是那些电子商务网站。如果你是在做一个电子商务网站,你是想满天撒网地投放广告,还是直接去找刚好想要买那些东西的人呢?”

2009年5月30日,在D7大会上,吉特拉斯发布了Siri,Siri整合一部分网络服务进入App Store,运行在iPhone 3GS上。但因为硬件和网络速度的局限,那时的Siri还不会说话,只能通过文字进行回应。

同年11月,Siri完成第二轮融资,共计1550万美元,原先两家投资机构追加部分投资,李嘉诚基金会也加入进来。

2010年2月,带语音版本的Siri发布,免费提供3Gs手机下载。这个版本已经能帮你找到和预订餐厅、电影院,提醒你各项日程,帮你预订从A处到B处的出租车;但这个版本的Siri还不能回答“离办公室最近的健身中心在哪里”。

谷歌趋势显示,2010年4月,Siri迎来第二个关注高峰。那个月,苹果正式收购Siri。在吉特拉斯2010年3月份的twitter记录里,他不停地往返于芝加哥和硅谷之间,和不同的人会面。3月9日,他在twitter上写,Siri将要有些大动作了。

关于这次收购的细节,几个联合创始人根据协议都未向外界透露,2亿美元的价格也是估价。温那斯基只对媒体说:“仅仅在我们发布了应用之后的2个月,苹果就完成了对Siri的收购,其他的你自己想去吧。”

苹果的人工智能之梦

今天的Siri,让人想起曾经的Eliza。Eliza是1966年面世的一个著名程序,由麻省理工大学研究员约瑟夫·维赞包姆(Joseph Weizenbaum)设计,它提供了一些模拟反应,回答用户提出的问题,类似和精神治疗医生进行交谈。人们可以和Eliza聊天,仿佛和真人聊天一样,当时的Eliza成为了“全美的玩具”。

有人问Siri,谁是Eliza。Siri显然还记得她,它说:“她是我的朋友,是个优秀的精神治疗师,但她已经退休了。”

在Siri中,设计者们为它植入了大量的彩蛋。譬如,当用英文要求 Siri,“Open the pod bay doors(打开分离舱门)。”那是库布里克作品《2001太空漫游》里的场景。Siri会有不同的回答:“暗号……”,“Joshua,对不起!恐怕我不能那样做。”,“够了!我要向智能代理联盟报告你在骚扰我。”,“你们将永远记得我们这些智慧代理人”。最后这句话,在电影里是机器 HAL9000 的台词。

类似于HAL9000的智能电脑一直是苹果对于人工智能的完美设想。在1980年末苹果公司发布的系列展望未来的视频中,有一个这样的机器人叫Jill,他是一位教授的助手,他生活在一本打开的平板电脑中,随时准备为教授提供各种帮助:搜索论文的时间;提醒他回母亲的电脑;帮他接通电话……

在1999年的苹果千禧年广告中,HAL9000直接出镜了,他对《2001太空漫游》的另一主角)循循善诱:其他公司忙于投入巨额资金修复千年虫漏洞,甚至有人认为全球信息系统即将崩溃,只有苹果电脑对该漏洞是免疫的!

吉特拉斯在Twitter中透露了Siri早期发展设定的目标路线图。第一阶段:阶段性人类;第二阶段:完全是人类;第三阶段:超越人类;第四阶段:杀死人类。就像HAL9000在《2001太空漫游》里干的事情一样。

在2010年收购Siri后,苹果扩充了Siri的能力,包括使用Nuance的语音识别技术。温那斯基认为,用什么语音识别技术并不是最重要的,一旦有更好的语音识别技术出现,Siri很容易换一个新的。Nuance也是斯坦福研究院孵化的一个公司,在2000年上市。

2011年10月,随着iPhone4S上市,谷歌趋势里“Siri”的关注指数直线上升。诺曼斯基觉得,Siri的意义就像鼠标之父道格·恩格尔巴特(Doug Engelbart)在60年代发明鼠标那样令人振奋,苹果将用Siri开启另一场技术革命。

Siri的高明之处和潜力

也有不少公司对苹果推广Siri的人工智能颇有微词。

安迪·鲁宾,Google公司Android系统开发者安迪·鲁宾对媒体表示:“我不认为手机该成为你的个人助理,手机是与人沟通的工具,你不该和手机说话,你应该和手机旁边的那个人说话。”事实是,Android系统里有上千个和语音服务有关的应用软件出售,更别说Google的智能语音搜索。

微软的Windows手机总裁安迪·李也对Siri不以为然:“那并不是非常好用。”他指出,手机着重于语音应用其实很正常,微软在这方面也有发展,但并非像苹果在iPhone 4S的Siri那样过于“华丽”的呈现。

在人工智能领域,几大IT巨头从未停止脚步。Android系统的语音指示(Voice Actions)就是一项伟大的技术,并已经被许多Android用户所熟知和使用。遗憾的是,和所有语音命令系统一样,它要求用户说的话严格符合一系列特定的语法,否则它就无法理解。

和他们相比,Siri最优秀的地方在于它的界面,你说的话可以和你想表达的意思在字面上毫不相干,从严格的技术上看似乎文不对题,但Siri会根据上下文、人类历史以及能够理解一般人类语言的人工智能去分析,并在多数情况下领会你的意思。你可以随机提问,“到木星有多远?”,“122的5次方是多少”,或者“天空为何是蓝色的?”

如果你想小睡一会,并准备上个闹钟,只需要说“20分钟后叫醒我”。如果你想查阅后面的日程安排,你可以说:“我今天接下来都有什么事?”这些语句中既不包括会用到的应用程序名称,也不包括所需数据的名称。Siri仍然能够理解。

Siri还有很独特的幽默性格,人们几乎可以把它当作一个有趣的年轻女子。

在技术上,Siri是人工智能专家的所有技术在友好界面上的整合,但它的潜力不止于此。如果苹果借此机会创建一个人工智能程序的生态系统,将Siri做成平台,让Siri与其他程序结合,内置的个人助理服务将更具使用价值。“技术上来说,Siri可与任何网络服务整合到一起,你可以把Siri前端放在任何服务之前。” 温那斯基对媒体说。

比如,有一款专注于帮助用户点餐的程序Alfred,它能从互联网获取数据来提供餐厅、咖啡、酒吧的选择建议。如果这个程序和Siri结合,也许你就不用问“离旧金山最近的意大利餐馆在哪里”,而是可以直接对Siri说:“我要吃午饭”。

苹果iPhone的成功大部分要归功于其允许第三方开发者创造最新的程序,为iPhone带来了新科技和新理念。温那斯基表示,这种做法也能够给Siri带来巨大进步。尽管苹果还没有公开表示,是否会开放Siri的API(编注:应用程序编程接口)。

互联网思想家凯文·凯利在《失控》中预言:网络终极的形式可能是一种人工智能的形式。这种形式足够复杂,有足够多的层级,能够产生自我思考的能力。

发表评论