当前位置: 首页 > news >正文

语音识别 FireRedASR-AED模型主要特点

FireRedASR-AED模型主要特点

  1. 架构设计

    • 编码器-解码器结构:采用Conformer编码器与Transformer解码器的结合。Conformer模块通过多头自注意力和卷积增强局部与全局依赖建模,Transformer解码器通过交叉注意力实现高效序列转换。
    • 子采样策略:编码器通过两层卷积(步长2,核大小3)将时间分辨率从10ms降至40ms,降低计算复杂度。
    • 混合分词策略:中文使用字符级分词,英文使用BPE分词,总词表量7,832,支持中英文混合输入。
  2. 训练数据与策略

    • 高质量数据:训练语料包含约70,000小时专业转录的普通话语音(人工标注为主),辅以11,000小时英语数据,覆盖多样化的声学条件和说话人。
    • 渐进正则化训练:从小模型到大模型逐步引入正则化(如Dropout和SpecAugment),优化收敛稳定性。
    • 轻量化设计:1.1B参数规模(相比LLM的8.3B更紧凑),适合资源受限场景。

中文准确率表现

  • 公开测试集
    在AISHELL-1、AISHELL-2 iOS、WenetSpeech(互联网和会议场景)四个公开普通话测试集上,平均CER为 3.18%,优于其他开源模型(如Paraformer-Large的4.56%)和部分商业模型(如ProviderA-Large的4.56%)。
  • 多源场景
    在短视频、直播、自动字幕等真实场景中,CER为 3.74%,相对商业基线(CER 4.56%)实现 18% 的相对错误率降低(CERR)。

对方言的适应性

  • 方言测试集
    在KeSpeech(涵盖8种中文方言)测试集上,CER为 4.48%,显著优于开源模型Baichuan-omni(6.7%)和Qwen-Audio(9.9%)。
  • 训练数据泛化
    尽管训练数据以普通话为主,但通过多样化的说话人和声学条件覆盖,模型能够有效泛化到方言场景。此外,混合分词策略和Conformer的局部建模能力增强了对口音变化的鲁棒性。

总结

FireRedASR-AED凭借高效的架构设计、高质量训练数据及渐进正则化策略,在普通话识别中达到行业领先的准确率(CER 3.18%),并在方言场景中展现出色泛化能力(CER 4.48%)。其轻量化特性(1.1B参数)和开源协议使其成为工业部署与学术研究的理想选择。

相关文章:

  • Gitee重新远程连接仓库(Linux)
  • Spring boot+mybatis的批量删除
  • 模运算的艺术:从基础到高阶的算法竞赛应用
  • AI大白话(一):5分钟了解AI到底是什么?
  • 知识图谱流程说明
  • 开源通义万相本地部署方案,文生视频、图生视频、视频生成大模型,支持消费级显卡!
  • DAY34 贪心算法Ⅲ
  • MinIo前后端实现
  • 深度解析React Native底层核心架构
  • Axure高级功能深度解析一一高效原型设计的利器
  • overcommit_never 和overcommit_guess 的定义和使用
  • APP自动化测试-备忘录:Appium 2.X的安装和启动服务方法
  • 【C语言】动态内存分配函数calloc
  • 设计模式-策略模式
  • 网络运维学习笔记(DeepSeek优化版) 017 HCIA-Datacom综合实验02
  • 【前沿 热点 顶会】CVPR 2025 录用的基于扩散模型的图像生成方向的论文
  • SMT贴片机编程高效学习路径解析
  • 18.使用读写包操作Excel文件:xlrd、xlwt 和 xlutils 包
  • 数据结构系列五:栈和队列
  • MapReduce处理数据流程
  • 东风着陆场近日气象条件满足神舟十九号安全返回要求
  • 农业农村部:把住能繁母猪存栏量“总开关”,引导养殖场户优化母猪存栏结构、合理控制产能
  • 辽宁省全力开展辽阳一饭店火灾事故救援处置工作
  • 俄宣布停火三天,外交部:希望各方继续通过对话谈判解决危机
  • 药明康德一季度净利增长89%,在手订单增超四成至523亿元
  • 深圳一季度GDP为8950.49亿元,同比增长5.2%