语音交互的前世今生

自以计算机为代表的智能设备出现以来,人机交互范式已经经历了两次更迭,初期的人机交互1.0范式是我们所熟悉的屏幕-鼠标-键盘式交互,在这一阶段,人们依靠键盘、鼠标向智能设备发出任务指令;人机交互2.0时代则是通过智能触屏手机而实现的,自从iPhone引领了触屏手机的热潮后,手指触摸正在逐渐取代实体按键成为人机交互的新范式;当下随着智能音箱、智能家居、智能语音助手等语音交互技术成果的普及,“以音为令”这一更加回归人类本体的交互方式极有可能引领我们走向语音交互时代。

 

语音交互技术最早可以追溯到人工智能的开拓者——艾伦·图灵的“图灵测试”,也被人们称之为“模仿游戏”。1950年10月,图灵发表了一篇名为《计算机械和智能》(Computing Machinery and Intelligence)的论文,试图探讨到底什么是人工智能。

 

在文章中,图灵提出了一个有趣的实验:如何辨别一台机器是否足够智能呢?一个好方法是让测试者和计算机通过键盘和屏幕进行对话,测试者并不知道与之对话的到底是一台计算机还是一个人。如果测试者分不清幕后的对话者是人还是机器,计算机能在测试中表现出与人等价,或至少无法区分的智能,那么,我们就说这台计算机通过了测试并具备人工智能。也就是说,在“图灵测试”中能否通过语言顺畅地实现人机交互决定了机器的智能与否,语音交互对于人工智能产品的重要性不言而喻。

 

 

当下人工智能以及各种数码产品的语音交互主要是依赖于自然语言处理(NLP)技术实现的,NLP的核心便是机器如何更好地理解自然语言并做出适当回应。由于NLP在人工智能板块上的不可替代性和重要性,其也被誉为“人工智能皇冠上的明珠”,目前在这一领域,谷歌、微软以及中国本土企业科大讯飞都是佼佼者。

 

而在日常生活当中,以NLP技术为驱动的语音交互主要分布在两个领域。第一是智能家居产品,比如智能音箱、扫地机器人等产品,用户不必以传统意义上的使用方式去控制它们,可以直接用口语向它发出指令,一些智能程度比较高、后台数据库强大的产品甚至可以在特定主题下和用户实现语音对话。在这方面典型的代表就是2014年亚马逊发布的基于Alexa平台、可以和用户聊音乐的智能音箱Echo。

 

 

第二个领域则是数码设备上的语音助手,比如我们比较熟悉的微软小冰、Google assistant、苹果Siri,以及国内厂商小米的小爱同学、华为的小艺同学等。客观来讲,这种依托于智能设备的语音互动形式并不是完全意义上的语音交互,一般可以将其视为对智能手机触屏交互形式的辅助。

 

无法将语音作为智能设备的唯一交互形式是因为当下自然语言处理技术仍然不甚成熟,并且这些智能设备尤其是智能手机相对于之前提到的智能家居而言,其无论是用户的应用场景,还是自身所包含的功能都过于复杂,对语音交互的要求在某种程度上达到了通用对话机器人的标准,至少在当前的技术环境下是不切实际的。

 

 

那么语音交互将带给我们什么呢?一方面,无论是键盘-鼠标时代还是触屏交互时代,我们都需要用肢体对操控设备,这实际上限制了人们在使用智能设备时的活动方式和活动范围。但语音交互这种交互技术在很大程度上甚至是完全意义上解放了人类的肢体,人们随时随地都可以以“动嘴皮子”的方式实现指令的发出。

 

另一方面,语音交互所带来的内容也不同于以往。当下以算法推荐新闻基本上实现内容的个性化,算法推荐系统通过用户的行为习惯、所处的场景、社交范围等信息描摹出用户画像,推送相应的新闻内容。但语音交互时代的个性化将比算法推荐更高维。在乡土社会中老人们会强调“听话听音”,也就是说,而语音中却包含了一个人的情绪和心理活动信息,相较于行为习惯而言这种信息则更为高维,也更具有即时性。未来通过语音对用户情绪和情感的解读和分析势必将成为语言处理技术中的重要一环,那么以后人们通过语音交互获得的内容也会是包含此时此刻个人情感因素的,这种内容才真正称得上是“千人千面”。

(图片来自网络)

 

0

发表评论