• 愿流氓资源网能够帮您学到有用的知识
  • WAP手机版 广告合作 保存桌面加入收藏设为首页
当前位置 当前位置:首页 > 其他资讯 > 搜索引擎

百度语音是什镇江百度优化么

2019-12-16 00:38:16
摘要

百度语音是什镇江百度优化么语音作为人机交互的全新进口,现已在以前几年席卷全世界。语音技术的行进,不只体现在各式各样的智能设备里,还在不断赋能移动设备输入法的改造,依托语音方便的交互方法,输入法里语音输入也在悄然改

百度语音是什镇江百度优化么

语音作为人机交互的全新进口,现已在以前几年席卷全世界。语音技术的行进,不只体现在各式各样的智能设备里,还在不断赋能移动设备输入法的改造,依托语音方便的交互方法,输入法里语音输入也在悄然改变着用户与设备交互的方式。

在技术领域,某些影响深远的技术研发往往被称为。本周,百度在语音领域的,也完结了人类语音的一大步。
在百度输入法发布会上,百度发布了语音领域的四项严峻技术打破。这其间,在线语音领域全球开创的流式多级的堵截注意力模型成为焦点,这也意味着,学术界谈论多年的注意力模型总算完结了大规模在线商用。

此举意义严峻。一方面,这是业界第一个根据注意力模型的在线语音产品,凸显出百度在语音技术研发的抢先;另一方面,作为AI的基础功用,语音技术在百度AI技术赋能产品立异的作用越来越大,这也是当下百度AI战略落地的重要查询窗口。
接下来,本文将从此次发布的流式多级的堵截注意力模型下手,揭秘这项技术反面的意义,一同结合语音技术赋能百度其他产品线的案例,进一步评论这家公司的AI战略方向。
1.技术打破:学术界一大难题的落地
以前几年,AI被诟病的一大原因便是技术落地困难,一项实验室的技术即便再怎样先进,倘若无法再商业化的场景里得以运用,多少都有些当代的意味。
比如语音领域的注意力模型。
注意力模型是一种根据对一句话里每个音节或汉字音频特征的机器学习模型。通过机器学习的方法,将音频特征自动发掘出来。也便是说,这种方法下的语音辨认进程,变成了一个字一个字的翻滚生成进程。

由于摆脱了传统语音辨认的情况建模和按语音帧进行解码,该模型能够直接完结语音和文本一体化的端到端建模,具有学术界公认的建模精度。
但这个技术长期以来无法得以大规模运用。一方面,无法处理流式解码的问题,传统的注意力模型大都是根据整句的建模,比如Google的LAS模型便是其间的代表。整个建模进程需求通过云端/效力器的解码才干。这也意味着,当用户通过语音交互时,语音需求上传到云端,这关于移动设备的用户领会影响非常大。
另一方面,如上文所言,在传统的注意力模型里,一般是通过机器学习提取整句音频信息,也便是说语音输入的句子越长,进行特征选择的难度越大。犯错的概率越高,而一旦某个环节出现差错,差错的传导还会进一步提过差错率,毕竟反映在用户领会上的感受则是,用户语音说完一段话后,机器完全了解不了。
这也是此次百度流式多级的堵截注意力模型SMLTA所要处理的难题。首要包括两个重要的技术打破,其一,运用CTC语音辨认算法,对连续语音进行自动堵截,然后在这一系列语音小段的基础上建立注意力模型。其二,引入一种特别的多级Attention机制,完结特征层层递进的更精准的特征选择。
根据百度官方的说法,由于全部核算通过CPU完结,不需求额外增加GPU,整个云端的核算资源消耗与此前的语音模型持平。而在输入法精度上,许多数据测试效果闪现,相关于新近的模型,相对准确率提升了15%。
更重要的是,这不仅仅业界第一次提出了流式多级的堵截注意力模型SMLTA,也在全球范围内,完结了根据注意力模型的在线语音辨认效力的初度规模化运用。百度已成功将这种注意力模型安置上线到语音输入法全线产品,效力我国数亿用户,也因此,此次技术打破不再仅仅是一个实验室技术的展现,而是成为一个个普通用户都能够享受的技术盈余。
2.赋能:从内到外
一年前的百度输入法晋级里,根据DeepPeak2模型的语音模型,大幅提升了不同场景下语音辨认的准确率。而一年后,输入法晋级还带来了离线语音、中英混合输入、普通话方言混合输入的晋级。
这其间,离线语音辨认的场景最特别。由于语音辨认需求网络的支撑,当没有网络或许网络安稳的时分,常常出现语音辨认成功率低、辨认速度慢等情况。
虽然通过离线语音已处理一部领会问题,但以前离线语音与在线语音比较,准确率相差悬殊,领会得不到根柢处理。
针对这一场景,百度语音技术团队优化了输入法上嵌入式辨认的deeppeak2系统,大幅提升了离线语音辨认准确率。根据百度走漏的数字,现在百度输入法离线语音输入准确率已高于工作平均水平35%,这也让用户能够在没有网络的场景里流转快速运用。

上述注意力模型等一系列技术立异也是百度语音技术推动产品展开的一个缩影。
比如地图。上一年12月的新版地图里,语音就作为一个重要的交互方法,涵盖了导航路途、地址查找以及小度辅佐等等。
而在翻译领域,上一年10月,百度研发的具有猜想才干和可控推延的即时机器翻译系统,完结了两种言语之间的高质量、低推延翻译。这其间,通过上下文无关音素组合的中英文混合建模单元,让语音辨认的方法具有泛化性能好、对噪声鲁棒、中英文混合辨认等特征。
与此一同,正如百度高级副总裁、AI技术途径系统总负责人王海峰在百度大脑论坛上所言,。与工作其他AI巨擘们现在的战略一起,语音技术不仅仅百度多个产品线立异的动力,也现已并正在通过百度大脑向工作赋能。
以远场辨认算法为例,通过麦克风阵列前端处理算法,能够辨认政策说话人3-5米距离的说话。现在,根据语音远场方案技术的已在上海肯德基旗舰店投入运用。
2018年的百度世界大会上,百度大脑也带来多个语音技术晋级。比如的技术打破,用户只需唤醒一次就能够连续多轮对话,机器能够准确辨认用户说话时的犹疑间断、能够差异并随从初度唤醒的用户等,用户的领会更天然、流转,为语音交互供应了更多梦想空间。
3.写在毕竟
作为当下AI的一个单项技术,语音技术依然有巨大的打破空间。一方面,语音辨认在安静环境、普通话辨认的辨认率的确现已比较高了,但在凌乱环境以及口音、方言等环境里的辨认率还不一无是处。
另一方面,语音技术不仅仅动静与文字之间的转化问题,也不是单纯的软件或硬件问题,面向未来的语音技术是硬软一体、语音言语一体、辨认和交互一体。
百度这次推出的流式多级的堵截注意力模型SMLTA,无疑是中文在线语音辨认历史上的又一次打破。
而未来,百度语音的重要着力点是向下朝低端芯片展开,向上超语音语义一体化和交互展开。毕竟,百度语音将建立从硬件底层芯片、到上层的智能硬件系统,再到系统软件,语音客户端,语音效力器及后端交互一体化的全链路语音交互技术。
根据百度巨大的用户和丰盛的产品,这些技术将让用户享受AI的福利,而透过百度大脑,还将持续赋能各行各业。


本站内容来源于互联网,仅供用于学习和交流,任何人不得倒卖、行骗、传播、严禁用于商业用途!
请遵循相关法律法规,本站一切资源不代表本站立场如有侵权内容、不妥之处请第一时间联系我们删除,敬请谅解!

投诉侵权邮箱:lmg666@vip.qq.com 或联系QQ:409708470  关键词:流氓,流氓资源网,资源网

吉ICP备19004288号-2网站地图