百度旗下人工智能品牌小度发布了新款无屏智能音箱——小度智能音箱 2 红外版。据百度官方介绍,该音箱搭载了百度首款针对远场语音交互研发的鸿鹄芯片,性能上有三大提升: 1)在语音识别上错误率平均降低30%;2)高噪声下首次唤醒率提升10%以上,且达到家居场合使用的超低误报要求;3)平均工作功耗仅 100mw左右,待机功耗下降90%。 这样的性能提升在业界可谓首屈一指,值得探索。 AI 科技评论对其背后技术做了详细分析,认为这主要得益于在他们在语音交互方面提出的两大「端到端一体化」创新, 1)在软件层面。目前智能音箱领域流行的语音交互方案为:先语音增强,后语音识别。这种过程把语音交互分割成了两个独立的过程,在优化过程中往往目标不一致。而百度直接采用了“基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术”(很长的一段话,关键词:复数卷积、端到端、增强和建模一体化),以字识别准确率作为唯一的优化目标。 2)在硬件层面。传统上,智能音箱的语音唤醒一般是两级唤醒,这需要一颗低功耗唤醒芯片和一颗计算性能高的主芯片来配合完成。这种框架导致平均功耗极大(1W以上),且对主芯片的算力要求极高。百度提出了端到端软硬一体化框架,将所有语音交互任务都放到一颗低功耗语音交互芯片(鸿鹄)上,主芯片无需承载复杂的语音交互的计算功能,显著节省语音交互部分对整体系统资源的占用。 这在软、硬两个层面革新,对整个(远场)语音交互都是颠覆性的。 一、软件层面:语音增强和声学建模一体化端到端建模技术 首先我们来分析一下,智能音箱的语音交互的软件层面为什么必须选择端到端建模的处理方式。 传统上,为了提升远场语音识别的准确率,一般会使用麦克风阵列作为拾音器,利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。 目前,绝大多数在售的智能音箱产品系统所采用的多通道语音识别系统,都是由一个前端增强模块和一个后端语音识别声学建模模块串联而成的:

