当前位置: 首页 > news >正文

conformer编码器

abstract

最近,基于Transformer和卷积神经网络(CNN)的模型在自动语音识别(ASR)中显示出有希望的结果,优于递归神经网络(RNN)。Transformer模型擅长捕捉基于内容的全局交互,而CNN则有效地利用了局部特征。在这项工作中,我们通过研究如何将联合收割机卷积神经网络和transformers结合起来,以参数有效的方式对音频序列的局部和全局依赖性进行建模,从而实现两全其美。在这方面,我们提出了卷积增强的Transformer语音识别,命名为Conformer。Conformer显著优于之前的基于Transformer和CNN的模型,实现了最先进的精度。在广泛使用的LibriSpeech基准测试中,我们的模型在不使用语言模型的情况下实现了2.1%/4.3%的WER,在使用外部语言模型的情况下实现了1.9%/3.9%的WER。我们还观察到2.7%/6.3%的竞争性能,只有10 M参数的小模型。

索引术语:语音识别、注意力、卷积神经网络、Transformer、端到端

intro

近年来,基于神经网络的端到端自动语音识别(ASR)系统有了很大的改进。递归神经网络(RNN)已经成为ASR的事实上的选择[1,2,3,4],因为它们可以有效地对音频序列中的时间依赖性进行建模[5]。最近,基于自我注意力的Transformer架构[6,7]由于其捕获长距离交互的能力和高训练效率而被广泛采用用于建模序列。或者,卷积也成功用于ASR [8,9,10

相关文章:

  • RFID使用指南
  • MODBUS转ProfiNet边缘计算网关驱动霍尼韦尔HPT温湿度仪表的动态控制闭环方案
  • Trae 实测:AI 助力前端开发,替代工具还远吗?
  • 2025年PTA天梯赛正式赛 | 算法竞赛,题目详解
  • 从 0 开始认识 WebSocket:前端实时通信的利器!
  • LabVIEW基于VI Server的控件引用操作
  • PTC加热片详解(STM32)
  • 代码随想录算法训练营day11(二叉树)
  • openwrt查询网关的命令
  • Android 14 系统统一修改app启动时图标大小和圆角
  • 解锁Linux共享内存:进程间通信的超高速通道(转)
  • 今日行情明日机会——20250425
  • 什么是CN2专线?全面解析中国电信的高性能网络服务
  • Android Studio开发中Application和Activity生命周期详解
  • MySQL基础——聚合查询(全面解析)
  • 入侵检测系统(IDS)与入侵防御系统(IPS):功能对比与部署实践
  • Linux-06 ubuntu 系统截图软件使用简单记录
  • 大型工程里 AI 编码困境重重,未来如何破局?
  • CodeMeter Runtime 安装失败排查与解决指南
  • Operating System 实验二 内存管理实验
  • 马上评丨学生举报食堂饭菜有蛆,教育局应该护谁的犊子
  • 主播说联播丨六部门出台新政!来华买买买,实惠多多多
  • 云南舞蹈大家跳暨2025年牟定“三月会”昨天开幕
  • 最大规模的陈逸飞大展启幕:回望他,回望一个时代
  • 谷歌一季度利润增超四成:云业务利润率上升,宏观环境可能影响广告业务
  • 漫画阅读APP刊载1200余部侵权作品:20人获刑,案件罚金超千万元