科大讯飞为什么是“最聪明的公司”

特稿 王珊
语音功能解放了双手和眼睛,扩展了永远在线的概念,只需要一个声音的交流,就可以迅速高效地完成一些操作,传统的键盘、手写板或现在流行的视频都不可能如此充满想象力而且便利


中国电子信息博览会上,小朋友体验科大讯飞VR创新教学产品。图 | 受访者提供

科大讯飞为什么是“最聪明的公司”


《中国新闻周刊》记者|王珊

以报道新兴科技与创新商业为特色的《麻省理工科技评论》,在进入互联网时代以后很受中国年轻一代技术男们的追捧,而这本杂志实际上已有118年的历史了。

2017年6月27日,《麻省理工科技评论》发布了“全世界最聪明的50家公司”榜单,其中排名全球第六、中国第一的,不是风头正劲的中国互联网巨头BAT中的任何一家,而是科大讯飞。

该刊对科大讯飞的上榜理由是这样描述的:“该公司旗下的语音助理技术是中国版的Siri。其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。”

科大讯飞董事长刘庆峰对“人工智能+”时代的趋势总结道,“以语音为主导,以键盘和触摸屏为辅助的人机交互时代正在到来。”在他描绘的图景里,未来的人工智能会像水和电一样进入每个行业,深刻地改变人类的世界。这其中,“语音是人工智能的重要入口”。他认为,这是讯飞走红的原因。

“我们做的每件事都挺笨的”

“我们很荣幸入选‘最聪明的公司’,但是我觉得,科大讯飞在过去十几年做的几乎每件事都是挺笨的。”在《麻省理工科技评论》揭晓“全世界最聪明50家公司”现场致辞时,科大讯飞高级副总裁江涛说。

对于当下的中国青年人来说,创业是一种时髦,然而对于讯飞来说,却开始于近20年前。

1999年,科大讯飞成立,18名成员全部是中国科学技术大学的毕业生。此时,恰逢全球语音技术产品化的第一波热潮。微软、IBM、英特尔和摩托罗拉都在中国成立了专门的语音研究基地,并把中文作为最重要的战略主攻方向之一。

然而,这一波热潮并没有真正热起来。其原因,是受语音技术发展水平的限制。刘庆峰记得,当时语音合成出来的效果是“一字一顿”的,连续性不好;而语音识别和语音解析则更多地停留在实验室阶段。

语音技术如何赚钱,初创团队谁都说不清楚。当时,苹果的Siri还没出现,距人机语音交互也还十分遥远,但那时刘庆峰就认为,语音技术迟早要面对大众,融入人们的日常生活。如果说,语音合成是让机器拥有人类的声音,那么,语音识别和语音解析则是赋予了机器人的耳朵和大脑。让机器能听会说,成为讯飞成立之初就设定的目标。

按照当时的估算,这项技术有着100亿元左右的市场空间,但这只是几个创业青年的简单推算。刘庆峰回忆说,“我们当时想,语音用在工商查询系统中会有多大市场规模?我们的系统使用费用20万元,全国400个工商局就是8000万元,如果放到教育上岂不是更大?”

不久,他们开发了一款名叫“畅言2000”的电脑软件。这是一款能把语音自动转换成文字的工具,甚至还可以让用户通过语音控制电脑,现在看来,这有点像讯飞后来一些产品的原型了。

一开始,这款设计受到了很多人的喜爱,尤其是对电脑接受度低的离退休人群。但是很快刘庆峰就发现产品很难赚到钱。一方面是因为盗版横行,另一方面,用户年龄偏大,对电脑知之甚少,维护成本高。

他们试图将技术提供给中国电信等大公司来获取利润,对方却不放心将单子交给一个十几人组成的年轻团队。后来,刘庆峰想办法将技术嵌在包括华为在内的大的技术平台上,谋求与第三方的合作。这成为后来讯飞主要的商业模式。

刘庆峰许下的上亿元规模的市场空间并没有成为现实,而且大笔的收入被投入到核心技术的进一步研发中了,创业成员只能拿到两三千元的工资。现实让他们感到有些失望。同时,各种质疑声四起。刘庆峰则坚持,“我们不可能一步登天,只能脚踏实地。成功一定会来,但绝对不是现在。”

直到2010年,公司推出了讯飞输入法,以此宣告语音听写时代的到来。刘庆峰还记得发布会的地点是在北京的香格里拉饭店,当时整个会场的人都很兴奋。一位在场的记者用福州口音尝试了讯飞输入法后激动地说,“中国终于有个像Siri的产品出现了”。

然而,讯飞输入法并没有预料中的那样突飞猛进。刘庆峰很清楚,“当时80%的识别率是在特定场景下实现的,然而,如果在噪声环境或网络环境不好的情况下,实际的识别率就只有60%了。”

当时,讯飞刚刚将“深度学习”技术引入到语音识别中去,“机器学习”依然是最主要的计算方法。这个已经发展数十年的技术对于语音的特征提取有着天然的局限性。其他条件也都还没有准备好。2010年,距离中国政府正式发布3G牌照仅仅一年的时间,国内手机市场依然是以2G为主导。移动网络的限制体现在数据传送速度上,用户说完话后,需要等待一段时间才能将语音变成文字。

五年之后,一切都发生了变化。2015年,全球智能手机出货量为12.93亿部,年增长10.3%。2016年,这一数据为14.8亿台。截至2016年7月,中国移动电话4G用户总数达到6.46亿。

与此同时,深度学习技术也迅速发展起来。深度学习通过建立、模拟人脑进行分析学习的神经网络,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测,以达到具有人类一样的思考能力。这一技术迅速地被应用在语音识别、图像识别等领域。

语音技术一下子火了起来。智能语音在国外得到互联网巨头的重视。苹果推出了Siri,谷歌发布了GoogleNow,微软的Cortana也问世了。这些公司都希望通过语音助手来打开人工智能的入口。2016年9月,微软执行副总裁沈向洋在接受媒体采访时表示,语音的彻底主流化已经不是一个需要讨论的问题,只是一个时间和习惯转移的问题。

“互联网女皇”玛丽·米克尔(Mary Meeker)发布2016年互联网趋势报告,用近四分之一的篇幅论述语音识别交互带来的改变,将语音功能赞誉为“人机交互的新范式”。她说,语音功能解放了双手和眼睛,扩展了永远在线的概念,只需要一个声音的交流,就可以迅速高效地完成一些操作,传统的键盘、手写板或现在流行的视频都不可能如此充满想象力而且便利。

刘庆峰终于等到了最好的时代。讯飞语音占领了各类会议的大屏幕,讯飞输入法成为互联网人的标配。“许多人觉得人工智能突然火了,但我们其实一直在这个领域努力。科大讯飞看准一个方向,就会不遗余力地走下去。”

一切都朝着新的目标努力,即机器不仅能听会说,还能理解、会思考。在资金投入上,科大讯飞每年将销售收入的25%投入研发中去,远超其他科技企业3%~5%的平均水平。不过,做出一款类似《超能陆战队》里的大白的产品,能够完全理解人类的语言和行为,注定是一场漫长的战役。

比如说,既有的语音识别工具仍然不能胜任嘈杂或回声缭绕的地方——讯飞的产品目前也只能保证5米内的识别;如果硬件比较差,那就更糟糕了,对语音识别的结果会变得磕磕绊绊。“要把一个人工智能的‘耳朵’做成一般人的听力水平并不难,问题是要让这只耳朵在嘈杂环境下也能听懂人说话,那就不是容易的事情。”刘庆峰说。

按照他的说法,人工智能可以分成三大阶段,第一个阶段叫计算智能,如计算机下象棋赢了国际象棋大师,代表了计算能力越来越强;第二个是感知智能,机器在视觉、听觉上以及语音上超越人类;而下一步就是认知智能,让机器有学习和推理能力。只有这样,人工智能才能带来更多惊喜。

 科大讯飞信息科技股份有限公司的讯飞研究院内,研发人员在实验室监测车内噪声环境下车载语音导航的识别率。图|新华

“最聪明的公司”


“最聪明的”讯飞到底有多聪明?在讯飞的“晓译翻译机”发布会现场,科大讯飞高级副总裁胡郁演示了该产品的功能。他邀请一位外国女士上台。这位女士懂一点汉语,却不能完成流利的交谈。双方都手持着一个翻译机。胡郁说中文,对方则用英语。

“你好,欢迎参加我们的发布会,请问你叫什么名字?”

“我叫南希,我很荣幸能参加这场盛会。”

“看了这么多产品,你觉得怎么样?”

“很精彩,我觉得好玩又有趣。”

“有了这个设备后,你觉得还有必要学中文吗?”

“这个设备让我震撼。我想推荐给我的朋友们,但是学习中文还是我最大的兴趣。”

“翻译机拥有大学英语六级的水平,能起到日常交流的作用,但还不能取代同传。”科大讯飞多语种翻译业务线副总监马家领告诉《中国新闻周刊》。

语音翻译是集语音识别、口语翻译和语音合成为一体的技术。随着全世界互联互通不可阻挡的趋势,它被视为当前移动互联时代最受瞩目的影响人类生活的重大技术之一。

机器翻译的历史最早可以追溯到1954年。当时,美国乔治敦大学与IBM公司联合使用IBM-701计算机首次完成了英俄机器翻译试验,拉开了机器翻译研究的序幕。此后几十年间众多不同的翻译方法相继出现。

自20世纪80年代末以来,语音翻译技术一直备受各国政府和研究机构的关注和重视。1985年,美国航空航天局翻译科主任 Timothy J.Rowe 就说过:“机器翻译是明天就要掀起的浪潮,这一点已毫无疑问了。”然而,这一技术的发展并没有预料的那么迅速。语音翻译仅仅涉及天气信息、观光旅游、购物和旅馆预订等限定领域的实验研究,主要以研究、系统演示和展示为主。

人们颇为熟知的在线翻译让机器翻译技术往前迈进了一步。它的工作原理是将整个句子切分多个词组、短语,进行翻译组合。比如,在中英文翻译中,它会把中文、英文短语之间的影射关系建立起来,解决的是对齐问题,译成小短语,以达到最大化的翻译流利程度。不过,这种组合产生的翻译方式因为较大的误差而不实用。

讯飞采用的技术将机器翻译大大地往前推进了一步。它使用的是“编码器-解码器”模型,能够对单词的特征进行提取,并具备语译能力,这是基于人工神经网络的一种机器学习方法,能够模拟人脑神经的层级结构,从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。这也是目前业界都在努力研究的一个方向。

在美国,谷歌、微软都将神经网络应用于机器翻译领域,谷歌更是表示会将神经网络机器翻译技术推广到Google Translate支持的全部103个语种中。

美国国家标准技术研究院(NIST)组织的机器翻译大赛(Open Machine Translation Evaluation)被业界视为全球最权威的机器翻译技术评测。2015年,在众多巨头的包围下,科大讯飞取得了全球第一的成绩,能够做到字到字的完全准确,包括语义理解准确。而一年前,科大讯飞在2014年国际口语翻译大赛(IWSLT)上获得中英和英中两个翻译方向的全球第一名。

现在,只要依靠手中比智能手机还要小的翻译机,就可以出国旅游,甚至进行一些低难度的商务会谈。人人都渴望的实时翻译技术似乎已经变成现实,更有人提出,机器翻译或将取代同声传译。

不过,刘庆峰试图给乐观的人泼点冷水,“机器翻译大赛,讯飞虽然获得了第一名,但准确率只有52%,跟人工翻译还有很大差距。”刘庆峰告诉《中国新闻周刊》。

确实,在人工智能的武装下,机器翻译的准确度有了很大的提高,在一定程度上可以达到“信”的标准,但若想实现 “达”和“雅”的要求,则有些力不从心。尤其是对于那些有多种修辞手法的诗歌、小说来说,要想实现较为精确的翻译,难度就更大了。

动动嘴就能过上智能生活?

科大讯飞高级副总裁杜兰描绘了未来使用语音实现各种人机交互的典型的一天:早上来到客厅,对智能电视说一句“回看昨晚的新闻联播”,电视便按你的心意播放;随后,你可以通过唤醒语音操控系统,将家里的空气净化器、空调、加湿器等电器调整到最舒适健康的状态。

上午,要开一个重要会议,合作伙伴来自韩国、日本和美国等国家,翻译机可以实时将多国语言转化成文字并翻译在大屏幕上,来自各国的参会者不用翻译就能进行沟通。

下班后,你驾驶着汽车问语音助手,怎么去最近的某银行营业大厅,它将把快速搜索的结果推荐给你,并规划好前往的路线。

……

一切都显得太智能、太美好了,在未来,动动嘴就能过上智能生活。更让人兴奋的是,当智能手机、平板电脑、智能手表、智能电视以及更多日常物品接入互联网,这一切就已经不远了。

拓普研究所的数据显示,2014年到2017年全球语音设备出货量大幅度攀升。2014年全球出货量不足500万台,到2017年出货量将达到2500万台。预计到2020年,全球语音识别的市场规模将会从2015年的61.9亿美元增长到200亿美元。

美国研究机构BI Intelligence发布的《2016年全球物联网发展研究报告》则预测,2020年全球将有340亿台设备接入互联网,平均每人有4个硬件设备。其中,语音使得智能家居成为物联网时代最激烈的战场。据研究机构Research and Markets报告显示,未来五年,全球智能家居设备和服务市场将每年以8%~10%的速度增长,到2018年市场规模将达到680亿美元。

那么,用什么当作智能家居的入口呢?最先入局的是亚马逊。2014年,亚马逊推出智能音箱echo,它能够接收来自房间各个角落的声音,可在不到两秒内回应诸如交通状况等日常琐事的询问。亚马逊选择音箱的原因很简单,首先必须是家居设备,价格不能太贵,最好每个人都买得起;其次是共有需求。

谷歌紧随其后。2016年5月,谷歌发布了智能音箱Google Home。竞争到了2017年愈加白热化。当年5月,在48小时内,来自三家公司的音箱产品竞相发布:微软携手三星旗下音响品牌哈曼卡顿,发布智能音箱Invoke;联想集团发布中国版本智能音箱;亚马逊在美国发布带7英寸触摸屏的Echo Show。6月28日刚刚发布的这款新品是音箱与平板电脑的结合。很明显,这些大牌公司的目标跟亚马逊一样,即通过音箱打造一个无所不在的电商模式。

2015年,科大讯飞携手京东发布了类似的产品叮咚音箱。刘庆峰觉得,音箱本身炫酷,又有时尚感,可以作为智能家居的一个入口。不过,在中国,他最看好的依然是电视屏幕。“电视有着成熟的商业模式和明确的应用价值,家家户户都有一块电视屏,现在只需要把他们激活就行了。在电视上花力气,是会有回报的。”

讯飞正在执行的“讯飞超脑”计划正在努力将一切变为现实,未来,你可以通过用语音指挥电视进行购物,也可以由此来控制家里的冰箱、洗衣机、热水器;甚至将教育资源搬上电视。

最近一年多以来,在资本的加持下,许多公司纷纷贴上了人工智能的标签。李开复曾在演讲中提到,他见到过一个内衣企业,也声称自己是人工智能企业。“这是非常不正常的现象。现在,人工智能领域的泡沫化特别严重。”“新经济100人”创始人兼CEO李志刚则表示“未来两三年,95%以上的人工智能创业公司要倒闭”。

为此,刘庆峰提议建设中国的人工智能联盟。对于开发者来说,一个统一的标准,能够避免产品开发中的资源浪费,对于消费者来说也划算;其次,有了标准之后,可以避免鱼龙混杂。“人工智能不能只停留在概念,大家都说自己的产品好,但是缺乏评定标准,老百姓和政府也搞不清楚,人工智能是浪潮还是泡沫,也很难说明白。有了标准,一切都可以解决。”

产业联盟的成立也有利于中国企业联合起来应对国外的竞争。 《纽约时报》曾发文指出,美国正面临挑战,其在机器人和人工智能领域一家独大的想法已然过时,中国的公司正在一点点瓜分市场。“人工智能真的要赢,绝对不是一个企业取代另一个企业,是一个产业链和一个产业链的竞争,是一个生态对一个生态的竞争。”刘庆峰说,目前国际范围内人工智能的对抗依然主要是中美两国之间的对抗,想要赢得战争,必须要协同起来。

本文首发刊载于《中国新闻周刊》总第813期
声明:刊用《中国新闻周刊》稿件务经书面授权

推荐阅读 »