当前位置：首页 » 资讯中心 » 公司新闻 » 语音交互重在前端语音拾取后端语义理解

语音交互重在前端语音拾取后端语义理解

文章出处：责任编辑：作者：人气：-发表时间：2016-08-11 11:35

据了解，在语音交互系统前端的声音拾取阶段，针对家庭领域机器人市场仍然可以细分，因此对于语音交互系统中拾音的硬件部分提出了一些个性化的需求，如有的需要小体积(无法集成多麦克风)，有的又需要比较大，因此在做方案时成本、功耗、体积都得根据用户需求进行选择。

深圳市悠响声学首席技术官彭远疆

对于麦克风的安装方式，深圳市悠响声学首席技术官彭远疆告诉记者，目前国内分别有两种方式，第一种是比较常见的圆形或线形麦克风阵列安装方式，基于这种安装方式的音频处理方式也不同，最常用的便是波束形成技术;另一种就是悠响声学的个性化安装方式，麦克风安装位置可随着终端产品外观不同而不同，并不需要固定，因此基础算法上也有很大不同。而悠响声学音频处理技术主要业务在通讯行业，在家庭机器人领域目前已将他们独特的语音拾取技术应用在一个麦克风的布丁机器人以及7麦伴侣型机器狗两个产品的语音交互系统中。

此外，彭远疆还告诉记者：“在测试时，其他厂商国内多是利用麦克风固定后的几何位置来对语音做处理，造成的问题便是在做测试时效果会很好，但应用到机器人当中后效果会变差很多。”其原因在于算法只是基于麦克风的几何位置，在测试时麦克风放置空间是一个无干扰的空间，而在实际应用中有诸多障碍，因此效果不佳。对此，悠响声学基于一个模型，麦克风位置并不需要固定，在实验测试空间传递函数时围绕360度每10度发声测出一组参数存在机器人里面，再利用这组参数来做定位和语音分离。此外，该音频拾取技术虽然工作量较大，但准确率高，测试效果和实际应用效果比较契合。

思必驰信息科技有限公司市场总监龙梦竹

思必驰信息科技有限公司市场总监龙梦竹告诉记者：“思必驰的‘环形6+1远场麦克风阵列’解决方案可将音源定位精度保持在±10°之内，是国内唯一一家可与亚马逊echo中采用的环形‘6+1’麦克风阵列达到同等配和效果的阵列模块。”该方案由六个麦克风呈环形排列，中间一个麦克风辅助拾音构成。如此，7个麦克风同时收录7个音频，同时送入智能硬件模块中，对信息进行处理，从而实现360°环形拾音，同时进行声源定位，非常适合机器人这种全角度、可移动、能灵活转身的智能硬件产品。

云知声AI Labs 资深人工智能专家刘升平博士

云知声AI Labs 资深人工智能专家刘升平博士也对云之声的UniRobot中的“芯”提供的硬件做了一个介绍。他表示UniRobot硬件芯片系统为一个4Mic阵列和全志R16(4核1.2G)芯片构成。他强调该硬件模块能支持Android5.1系统，能实现去混响、远场识别(SSP)、回声消除技术(AEC)等技术。因此让机器人开发者能够轻松开发出一款爆品智能机器人的同时，更能有效的降低产品成本。

目前悠响声学独特的Mic随意安装的语音拾取技术已成功应用到一款7麦伴侣型机器狗产品上，且可实现语音的盲处理，即可以同时检测到多方向讲话。而思必驰的“环形6+1远场麦克风阵列”解决方案也成功运用到了多款机器人产品中，如大华股份旗下的乐橙育儿机器人“小乐”，备受家庭及儿童的喜爱。各个厂家不同的语音系统在家庭机器人领域通过Mic安装位置不定或环状或线性的方式均有不同的应用，但从产品终端来看，语音功能无疑是家庭机器人功能上浓墨重彩的一笔。

在声音拾取过程中，除通过上述硬件安装方式提高语音识别外，在普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型，因而不同步的语音相互叠加产生音素的交叠掩蔽效应，严重影响语音识别的效果。对此，语音厂商提出了不同的解决方案。

“解决该问题主要从抑制噪声和语音增强两方面入手。”龙梦竹告诉记者，“环形6+1远场麦克风阵列”方案中，麦克风阵列利用拾音波束成形，采用独特算法，可有效抑制波束之外的噪声，同时融合语音信号的空时信息，从含噪声的语音信号中提取出纯净语音，从而可以有效地增强说话人语音，在正常家居环境下，能够有效实现5米的远场交互，1米范围识别率达96%，3米识别率达94%，5米识别率达92%以上。

此外，悠响声学通过两种方式实现语音拾取。彭远疆告诉记者：“多个麦克风，先搜索方向判断几个方向有声音并拾取，再利用空运滤波技术把语音过滤出来，根据环境噪声作进一步处理，同时把环境噪声给处理掉。还有一种就是悠响声学目前比较新的一种方式，搜集空间所有语音信号，根据语音特性的差异(频率等)进行特性总结然后提取，从而分离出多路语音信号，由此在实现方位识别的同时可以将多个语音分离出来，如此便能改善机器人需要特定方向唤醒的缺陷并实现多人机交互。”彭远疆还表示，在多人交互技术方面，悠响声学目前已能实现4人同时与机器人之间的交互，不过这一技术尚未应用到新产品中。同时，他还指出该技术难点在于4人交谈中机器人如何判别哪些信息是针对它的，哪些不是，而这一问题需要音频厂商与语音识别厂商共同处理。

语音+语义后端提升机器人理解能力

除在前端增强语音拾取效果来提升语音交互体验以外，在后端要实现高度智能化机器人还须具备语义理解功能，而这一技术也是衡量一个语音系统智慧程度至关重要的一环。龙梦竹解释道：“同人脑一样，机器人要进行准确的语义理解，就需要强大认知智能。认知智能要求机器人在语音交互获取信息的基础上，能够基于上下文及应用场景进行深度学习，并进行语义理解，灵活运用大数据分析，准确追踪用户意图，通过语音判断用户的准确需求，体现机器人的学习能力和自主性。”

对此龙梦竹举了个十分具有代表性的例子：“在人机交互的过程中，我们常常会遇到这样的一个问题，用户对机器说‘我想听《晴天》’，机器人反馈的可能是天气预报，这表明机器对上下文及说话语境判定出现失误，”她表示这是语义理解的一个典型问题。

要防止机器人出现类似失误，就要求机器人能够对说话环境进行深度学习，才能准确判断，对于如何提高机器人理解能力龙梦竹告诉记者：“语音识别与语义理解的结合，无疑使机器人的交互体验更优化，理解说话人意图。为实现这一过程思必驰集成丰富的后端服务资源，如高德地图、虾米音乐、酷我音乐、喜马拉雅FM、考拉FM、微信、墨迹天气、大众点评等等，满足用户社交、娱乐休闲、地图导航、周边查询等等多种功能，因此可以使得机器人能够根据语音交互口令提供更丰富的交互内容，提供更好的人机交互体验。”

“语义理解的重点在于机器如何基于上下文语境及场景进行理解，如何通过深度学习掌握用户习惯，追踪用户意图，思必驰独立研发技术算法对这一问题进行了应对处理。”龙梦竹总结说。

深圳市狗尾草智能科技有限公司首席技术官王昊奋

对此，深圳市狗尾草智能科技有限公司首席技术官王昊奋也表示：“语意理解相对来说更加复杂，解决认知智能问题。一方面语义理解依赖更加准确的语意转录文字作为输入，特别是如何更好地捕获用户说话的习惯和领域用语。另一方面，语义理解也能对语音识别结果做有监督的修正等。”

为让机器人“听懂”，狗尾草旗下的公子小白系列同时应用科大讯飞的语音识别技术以及自身开发的语意理解技术。王昊奋介绍称：“大体来说，我们做了数据针对性优化，同时结合很多新的技术点，比如知识图谱的动态扩充、我们自主研发的语义解析框架、意图识别框架、上下文多轮会话管理框架等，从而使得产品的语意理解系统很强，大大提升了准确率。”

对于将自身语意理解技术结合到科大讯飞的语音识别技术中存在的问题，王昊奋指出：“深度学习在目前的阶段效果相比其它经典算法会更好，但是深度学习算法依赖于大规模语料，学习过程也不灵活，而且这些都需要在人的协助下实现。与人类学习模式不同，人类可以通过小规模样本学习而获得知识，也就是推理能力。”

刘升平博士也指出提高机器人理解力的主要方式是利用日志数据，学习用户的语言使用习惯，从日志中自动抽取语意标注数据和构建领域语言模型，利用基于RNN(循环神经网络)的序列标注方法，大幅提高语义解析的准确率。

同时，刘升平博士提出在此过程中技术难点主要有两点，一是如何理解用户的不太常见的说法，类似搜索引擎中的长尾查询;二是如何正确理解带识别错度的语音识别结果。他预测未来的语音交互可以达到良好的语意理解准确率，让用户与机器人终端产品的交互非常流畅、自然，不会有障碍。

综上，在语音交互过程中，前端音频厂家通过无规则或环状及线性的麦克风阵列安装方式可获得不同标准的音频及声源信息;而后端语音识别与语意理解技术通过自家集成或多家技术结合等不同的融合方式，并辅以强大的日志数据及样本数据库，通过深度学习算法或神经网络算法可大幅提高语意理解能力及准确率，让机器人走向强人工智能道路。

下一篇：载波聚合加速小基站优化LTE-A网络上一篇：通信黑科技NB-IoT 开启低功耗大连接物联网序幕

此文关键字：芯片,半导体,电子元器件,放大器,线性器件,制冷片,DSP,IC

您的浏览历史

语音交互重在前端语音拾取后端语义理解

相关资讯

同类文章排行

最新资讯文章

您的浏览历史

语音交互重在前端语音拾取 后端语义理解

相关资讯

同类文章排行

最新资讯文章

您的浏览历史

语音交互重在前端语音拾取后端语义理解