博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
百度技术沙龙第65期回顾:百度语音识别和唤醒技术解析(含资料下载)
阅读量:6134 次
发布时间:2019-06-21

本文共 1970 字,大约阅读时间需要 6 分钟。

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

\\

在8月6号由和InfoQ联合举办的第65期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

\\

百度语音开放技术最新进展及最新解决方案()

\\

首先,何荡介绍了百度语音技术的最新概况,尤其提到了语音识别和语音合成,并在后面的语音最新效果中进行了展示。语音识别方面,机器识别技术已超过人;语音合成方面,主要的是情感语音合成,即通过大数据拼接的技术,把情感的因素加到声音里面,更合理地说是在声音的采集以及最后合成的效果上,都已经注入了情感。

\\

982b6071f640822c5656527c36825c97.jpg

\\

另外,何荡还提到了百度语音平台的开放计划:

\\

第一个是远场识别,计划在今年年底的时候,把远场技术开放出来。这技术也是免费开放的,让大家可以去做一些解放双手的应用出来。

\\

第二个是情感语音,把情感的因素加到声音里面,会代替原有机械的声音,比较接近真人的声音,这也是预计在年底的时候开放。

\\

第三,被美国麻省理工凭为2016年10大突破技术的Deep Speech,今年年底的时候会有更大的技术提升和优化,会有更新版本的Deep Speech出来,放到语音平台上。

\\

个性化语音识别-离线命令词识别和自定义语义()

\\

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

\\

1、在线自定义

\\

2、离线自定义

\\

3、自定义语义

\\

4、语法编辑器

\\

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

\\

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

\\

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

\\

百度语音唤醒技术解析及实践()

\\

百度语音唤醒内核技术有哪些,其原理和实现方式是怎样的?

\\

唐立亮介绍说,语音唤醒技术常见的解决方案主要有:基于置信度、基于识别的唤醒系统和基于垃圾词网络的技术,百度语音唤醒技术是吸取了这三种方案的精华,即基于垃圾音素,采用模型统计的手段,使几个因素可以代表全部的发音,后边会接一个置信度系统,通过这个判断极大地降低误报率。   

\\

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:

\\

0bb1b3f7b775979b5673452eaf50a600.jpg

\\

首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

\\

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

\\

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

\\

关于如何选择唤醒词,他也给出了以下建议:

\\

1、唤醒词可根据应用的个性化需求来订制

\\

2、每个词在3个字到5个汉字之间,4个字最佳

\\

3、 音节覆盖尽量多,差异大,响亮

\\

4、建议选择不常用词语

\\

5、唤醒词评估系统,帮助合理选择您的唤醒词

\\

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。

\\

有关百度技术沙龙的更多信息,可以关注,或者关注InfoQ官方微信:infoqchina,InfoQ上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以。

\\\\\\

转载地址:http://theua.baihongyu.com/

你可能感兴趣的文章
阿里云ECS数据盘格式化与挂载图文教程
查看>>
Flexbox响应式网页布局 - W3Schools视频02
查看>>
【手牵手】搭建前端组件库(二)
查看>>
怎么给视频添加音频或配乐
查看>>
怎么转换音乐格式
查看>>
Leaflet-Develop-Guide
查看>>
每隔1s打印0-5
查看>>
Angular6错误 Service: No provider for Renderer2
查看>>
聊聊flink的BlobStoreService
查看>>
洗牌算法具体指的是什么?
查看>>
HBuilder打包手机app的方法
查看>>
解决Mac下SSH闲时自动中断的问题
查看>>
在JavaScript中理解策略模式
查看>>
ArchSummit 深圳 2017 成功举办,探索未来互联网架构
查看>>
不知道如何提升深度学习性能?我们为你整理了这份速查清单
查看>>
Go 2提上日程,官方团队呼吁社区给新特性提案提交反馈
查看>>
技术绩效考量:你们可能都做错了
查看>>
“亲切照料”下的领域驱动设计
查看>>
除了输入法,移动端AI还有哪些想象空间?
查看>>
回家路上想起来关于Js一个有趣的东西
查看>>