conformer编码器
abstract
最近,基于Transformer和卷积神经网络(CNN)的模型在自动语音识别(ASR)中显示出有希望的结果,优于递归神经网络(RNN)。Transformer模型擅长捕捉基于内容的全局交互,而CNN则有效地利用了局部特征。在这项工作中,我们通过研究如何将联合收割机卷积神经网络和transformers结合起来,以参数有效的方式对音频序列的局部和全局依赖性进行建模,从而实现两全其美。在这方面,我们提出了卷积增强的Transformer语音识别,命名为Conformer。Conformer显著优于之前的基于Transformer和CNN的模型,实现了最先进的精度。在广泛使用的LibriSpeech基准测试中,我们的模型在不使用语言模型的情况下实现了2.1%/4.3%的WER,在使用外部语言模型的情况下实现了1.9%/3.9%的WER。我们还观察到2.7%/6.3%的竞争性能,只有10 M参数的小模型。
索引术语:语音识别、注意力、卷积神经网络、Transformer、端到端
intro
近年来,基于神经网络的端到端自动语音识别(ASR)系统有了很大的改进。递归神经网络(RNN)已经成为ASR的事实上的选择[1,2,3,4],因为它们可以有效地对音频序列中的时间依赖性进行建模[5]。最近,基于自我注意力的Transformer架构[6,7]由于其捕获长距离交互的能力和高训练效率而被广泛采用用于建模序列。或者,卷积也成功用于ASR [8,9,10