当前位置: 首页 > news >正文

基础-语音是怎么进到LLM里面的

粗糙且概括地来说,语音是按照时间切分成很小的小块,然后每个小块的波形变成了一列像素,例如1100,那么一段语音可能分成200块,则该图片是200100的,接下来就变成了怎么做ViT的问题了。

接下来,详细说说语音->图的转变。

傅立叶变换

如果音频只有一个频率,则它是规律的波形。
规律的波形也有高低,因此这是另一个变量,叫赫兹。现在有了频率和赫兹,这就能画二维的图了。
在这里插入图片描述
如果一个音频很乱,则它是多个频率的叠加。
这就是傅立叶变换的目的,找出时序的音频波形是由哪些。
如上图所示,由两个频率和各自振幅(声音大小)组成的波形是左下角,右下角是两个频率(x轴)和其振幅(y轴),实际上应该是两个尖,没有宽度。
可以想像,如果是真实音频,其傅立叶变换后的右下角图得有多乱了。

短时傅立叶变换。

如果对十分钟的音频做FFT,显得有些拥挤了,信息也不够细。
所以有了短时FFT,核心就是把音频切分成带覆叠的音频块,再对小块做FFT。这就是前面说的1*100的像素的由来,100就是100个频率区间,像素颜色深浅代表赫兹。
在这里插入图片描述

梅尔频谱

这没有什么神秘的,只是一种对频率轴的拉伸。对于同样500hz频率的变化,从500->1000人类能分辨, 10000->10500就分不出来了。人类对低频更敏感,所以需要做一定的拉伸:
在这里插入图片描述
f是频率,单位是hz,依照上面的公式就能把频谱图转为梅尔频谱图。可见,上式是单调递增的。鬼知道为什么是这些值,大概是试出来的吧。

下面是一个实际的梅尔频谱,从知乎截的。
在这里插入图片描述
可见,横轴是时间,即短时傅立叶变化切割整个时间轴得到的碎片,一个个小格子很明显。
纵轴是hz,但是注意,hz并非线性变化,0-512与1024-2048的宽度几乎一样,但是hz变化差分别是512和1024,这是梅尔频谱转化的结果。
感觉纵轴不太对,所以用gpt快速验证了一下:
在这里插入图片描述
看来也差不多,0-512变化618,1024-2048变化526。
梅尔频谱图的颜色深浅为分贝,它也是一个对振幅的单调递增映射,也是为了对应人耳感受。以下是振幅转分贝的公式,其中A0是一个定值。
在这里插入图片描述

结语

看完了就知道声音是怎么转为“图片”的了,后续再看看这些频谱图的处理与cv领域用的ViT处理方法有何不同。

相关文章:

  • 算法 | 麻雀搜索算法原理,公式,改进算法综述,应用场景及matlab完整代码
  • 服务注册/服务发现-Eureka
  • ElementUI时间选择、日期选择
  • STM32学习笔记之常用外设接口(原理篇)
  • DeepSeek底层揭秘——deepEP
  • Qt中如何在同一个类中共享使用一个Qtimer
  • Apache Hive:基于Hadoop的分布式数据仓库
  • 拥抱人工智能大模型时代:大模型会改变我们的生活吗?
  • linux之qt打包 linuxdeployqt
  • android 去掉状态栏的方法汇总
  • JAVA小项目:拼图游戏(简单易懂可上手)
  • fastapi 实践(三)Swagger Docs
  • 前端知识-CSS(二)
  • LeetCode hot 100 每日一题(14)——54.螺旋矩阵
  • 部署高可用PostgreSQL14集群
  • C# 中实现一个线程持续读取,另一个线程负责写入,且写入时读取线程暂停
  • 闲聊IT - 面向服务架构(SOA)的发展历史
  • Powershell 无法将“vue”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
  • 【简单学习】Prompt Engineering 提示词工程
  • redis7.4.2单机配置
  • 消费维权周报|上周违规经营类投诉较多,涉诱导加盟等
  • 女乘客遭顺风车甩客、深夜丢高速服务区,滴滴霸道回应:赔五百元
  • 加拿大温哥华一车辆冲撞人群,造成多人伤亡
  • 最高法专门规范涉企案件审执工作:从源头防止趋利性执法司法
  • 民航局:预计五一假期民航旅客运输量创同期历史新高,将加强价格管理
  • 印方称与巴基斯坦军队在克什米尔交火