分分一分快三注册解密百度智能音箱小度:“听清、听懂、满足”背后的技术和能力 | 雷锋网

  • 时间:
  • 浏览:39
  • 来源:5分11选5平台-5分11选5官方

提到百度旗下的智能音箱小度,你因为会想到他曾在春晚登台,以及在真人秀《向往的生活》里聪明聪慧的样子。假使 亲戚亲戚当当当我们都 对着他喊“小度,小度”,他就会立马应和亲戚亲戚当当当我们都 ,因此组阁 亲戚亲戚当当当我们都 的任何请求。

根据市场研究机构Strategy Analyt分分一分快三注册ics最新发布的《2019 Q2全球智能音箱的报告》,小度以470万台的出货量位列国内第一;而在全球范围内,他的出货量仅次于亚马逊和Google。

小度的肩头有何技术在做支撑,亲戚亲戚当当当我们都 评价一款智能音箱的好坏其标准是有哪些?雷锋网了解到,一般具体情况下,亲戚亲戚当当当我们都 评价智能音箱的好坏主要看一另4个方面,分别是听清、听懂和满足。

在听清方面,其是指把用户的声波转化成正确的文字,一般称为语音识别因为唤醒。在内外噪音的干扰之下,机器要才能准确地识别用户的指令。这每段小度还才能 通过引入百度语音首创的流式分分一分快三注册多级的截断注意力模型(SMLTA),大大提升ASR效果。

亲戚亲戚当当当我们都 比较熟悉的ASR技术(Automatic Speech Recognition,语音识别),是将声音转化为文字,可拈连于人类的耳朵;而TTS技术(Text-To-Speech,语音合成),是将文字转化为声音(朗读出来),拈连于人类的嘴巴。亲戚亲戚当当当我们都 在Siri等各种语音助肩头听到的声音,有的是由TTS来生成的,并有的是真人在说话。

关于SMLTA,据公开信息,其是使用CTC(三种语音识别算法)的尖峰信息对连续语音流进行截断,因此在每一另4个截断的语音小段上进行当前建模单元的注意力建模;原来把原来的全局的整句Attention建模,变成了局部语音小段的Attention的建模;同去,为了克服CTC模型的不可除理的插入删除错误对系统造成的影响,该算法引入三种特殊的多级Attention机制,实现社会形态层层递进的更精准的社会形态挑选;最终,你相似 创新的建模最好的法子的识别率不但超越了传统的全局Attention建模,同去还才能保持计算量、解码深度图等在线资源耗费和传统CTC模型持平。这也是第一次有公开报道,局部的Attention建模,有因为超过全局的Attention建模。

在听懂方面,其是指得到你相似 字符串事先是有的是能理解用户的需求到底是有哪些,才能准确的给出响应,因为给出引导。比如小度在获得模糊需求(不清晰指令)的事先,它会尝试分分分一分快三注册析和校对被委托人的指令,以便更准确地满足用户的需求。其结合百度NLP的知识增强语义表示模型ERNIE,核心理解算法升级为超大数据预训练深度图模型。

在7 月 500 日,百度发布了 ERNIE的优化版本——ERNIE 2.0 自然语言理解框架。它还才能 通过持续的多任务学习,逐步学习和建立预训练任务。该框架支持增量引入词汇 (lexical)、语法 (syntactic) 、语义 (semantic) 等 3 个层次的自定义预训练任务,并通越多任务学习对其进行训练,实现全面捕捉训练语料中的词法、语法、语义等潜在信息。因此每当引入新任务时,该框架在递增地训练分布式表示的同去,有的是记住先前任务的信息。 

最后在满足方面,用户要的越宽泛越多,亲戚亲戚当当当我们都 是有的是能给得越多?这是满足的每段。在满足用户需求方面,融合百度全网搜索能力与大规模精准用户画像,从直接满足进化为个性化助手。

智能音箱的满足能力,这里主要看两点,设备的知识完备程度和技能服务生态。百度智能生活事业群组(SLG)首席技术官朱凯华表示,

“对于小度来说,其依靠百度生态中的知识图谱和搜索请求,以及网页内容支持,其知识完备程度较好;此外在技能服务生态方面,小度助手的开放平台上,因为拥有了35000多名的开发者,因此因为每段了2500+的线上技能。”

在软硬一体结合方面,小度采用了全双工免唤醒技术,雷锋网了解到,关于该技术的应用有一另4个必要条件:

  • 软件和硬件结合。即Hardware Designed for Software,也不 硬件构建的事先,才能 为软件的社会形态进行专门制作;

  • 语音识别和语义理解结合。是指才能做端到端的识别和理解,整个体验的串联,才能 整个每段深度图的整合和优化;

  • 完善的技术储备和除理方案。比如小度,其所有技术百度都 In house  具备,才能深度图整合。

朱凯华表示,在智能音箱你相似 行业里边,不怎么要的相似才能 Designed for software,也不 硬件构建的事先,才能 为软件的社会形态进行专门制作。小度在设计的一事先然后然后开始,就对它的声学效果要有非常高的要求,在高噪音的环境下,也还才能 准确唤醒。你相似 前提是对于硬件整个声学社会形态的要求很高,而小度则是从硬件设计伊始也不 因为做好了准备。语音识别才能 和语义理解完全结合起来,才能做端到端的识别和理解。整个体验的串联,才能 整个每段深度图的整合和优化,而这也正是百度的独特优势。相比于相似产品往往在各个阶段有的是采买了不同提供方的技术相比,百度完善一体的技术储备和除理方案,为小度的整体体验,做到了强大的后盾支撑。雷锋网雷锋网(公众号:雷锋网)

雷锋网原创文章,未经授权禁止转载。详情见转载须知。