当前位置: 首页 > news >正文

【音视频】AAC-ADTS分析

AAC-ADTS 格式分析

AAC⾳频格式:Advanced Audio Coding(⾼级⾳频解码),是⼀种由MPEG-4标准定义的有损⾳频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主
要的贡献者。

  • ADIF:Audio Data Interchange Format ⾳频数据交换格式。这种格式的特征是可以确定的找到这个⾳频数据的开始,不需进⾏在⾳频数据流中间开始
    的解码,即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中。

  • ADTS的全称是Audio Data Transport Stream。是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2(ISO-13318-7 2003)中有定义。AAC后来
    ⼜被采⽤到MPEG-4标准中。这种格式的特征是它是⼀个有同步字的⽐特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

简单说,ADTS可以在任意帧解码,也就是说它每⼀帧都有头信息。ADIF只有⼀个统⼀的头,所以必须得到所有的数据后解码且这两种的header的格式也是不同的,⽬前⼀般编码后的和抽取出的都是ADTS格式的⾳频流。两者具体的组织结构如下所示:

  • AAC的ADIF格式⻅下图:

在这里插入图片描述

  • AAC的ADTS的⼀般格式⻅下图:

在这里插入图片描述

  • 有的时候当你编码AAC裸流的时候,会遇到写出来的AAC⽂件并不能在PC和⼿机上播放,很⼤的可能就是AAC⽂件的每⼀帧⾥缺少了ADTS头信息⽂件的包装拼接。
  • 只需要加⼊头⽂件ADTS即可。⼀个AAC原始数据块⻓度是可变的,对原始帧加上ADTS头进⾏ADTS的封装,就形成了ADTS帧。
  • AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。结构体如下:

在这里插入图片描述

每⼀帧的ADTS的头⽂件都包含了⾳频的采样率,声道,帧⻓度等信息,这样解码器才能解析读取。⼀般情况下ADTS的头信息都是7个字节,分为2部分:

  1. adts_fixed_header();
  2. adts_variable_header()

其⼀为固定头信息,紧接着是可变头信息。固定头信息中的数据每⼀帧都相同,⽽可变头信息则在帧与帧之间可变。

固定头信息

在这里插入图片描述

  • syncword :同步头 总是0xFFF, all bits must be 1,代表着⼀个ADTS帧的开始
  • ID:MPEG标识符,0标识MPEG-4,1标识MPEG-2
  • Layer:always: ‘00’
  • protection_absent:表示是否误码校验。Warning, set to 1 if there is noCRC and 0 if there is CRC
  • profile:表示使⽤哪个级别的AAC,如01 Low Complexity(LC)— AACLC。有些芯⽚只⽀持AAC LC 。

sampling_frequency_index:表示使⽤的采样率下标,通过这个下标在SamplingFrequencies[]数组中查找得知采样率的值。

在这里插入图片描述

在MPEG-2 AAC中定义了3种:

在这里插入图片描述

  • profile的值等于 Audio Object Type的值减1
  • profile = MPEG-4 Audio Object Type - 1

在这里插入图片描述

  • channel_configuration: 表示声道数,⽐如2表示⽴体声双声道

在这里插入图片描述

声道数的定义如下

  • 0: Defined in AOT Specifc Config
  • 1: 1 channel: front-center
  • 2: 2 channels: front-left, front-right
  • 3: 3 channels: front-center, front-left, front-right
  • 4: 4 channels: front-center, front-left, front-right, back-center
  • 5: 5 channels: front-center, front-left, front-right, back-left, back-right
  • 6: 6 channels: front-center, front-left, front-right, back-left, back-right, LFE-channel
  • 7: 8 channels: front-center, front-left, front-right, side-left, side-right,back-left, back-right, LFE-channel
  • 8-15: Reserved

接下来看下adts_variable_header();

可变头信息
在这里插入图片描述

  • frame_length : ⼀个ADTS帧的⻓度包括ADTS头和AAC原始流.

  • frame length, this value must include 7 or 9 bytes of header length:aac_frame_length = (protection_absent == 1 ? 7 : 9) + size(AACFrame)

  • protection_absent=0时, header length=9bytes

  • protection_absent=1时, header length=7bytes

  • adts_buffer_fullness:0x7FF 说明是码率可变的码流。

  • number_of_raw_data_blocks_in_frame:表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。

  • 所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有⼀个AAC数据块。

下⾯是ADTS的AAC⽂件部分:

  • ⾼字节开始算

在这里插入图片描述

第⼀帧的帧头7个字节为:0xFF 0xF1 0x4C 0x40 0x20 0xFF 0xFC

实现流程

准备文件,准备音频格式在MPEG-2支持的3种AAC格式的mp4flv,这里不使用ts是因为它的aac流自带ADTS头部信息。

这三种都支持

  • Main Profile
  • LC
  • SSR

在这里插入图片描述

将文件放入build路径下,通过main参数传递进来

在这里插入图片描述

创建一个输出文件,以二进制写的方式打开,用于写入转换后的ADTS文件

	char *in_filename = NULL;char *aac_filename = NULL;FILE *aac_fd = NULL;av_log_set_level(AV_LOG_DEBUG);if(argc < 3){av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");return -1;}in_filename = argv[1];      // 输入文件aac_filename = argv[2];     // 输出文件if(in_filename == NULL || aac_filename == NULL){av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");return -1;}aac_fd = fopen(aac_filename, "wb");if (!aac_fd){av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);return -1;}

文件解封装

将文件解封装,无论是mp4还是flv,找出对应的音频流,读取音频流数据

AVFormatContext *ifmt_ctx = NULL;// 打开输入文件if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0){av_strerror(ret, errors, 1024);av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",in_filename,ret,errors);return -1;}// 获取解码器信息if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0){av_strerror(ret, errors, 1024);av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",in_filename,ret,errors);return -1;}// dump媒体信息av_dump_format(ifmt_ctx, 0, in_filename, 0);// 初始化packetav_init_packet(&pkt);// 查找audio对应的steam indexaudio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);if(audio_index < 0){av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",av_get_media_type_string(AVMEDIA_TYPE_AUDIO),in_filename);return AVERROR(EINVAL);}

我们查看一下当前的AAC类型的profile,因为我们只支持三种:

 printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",ifmt_ctx->streams[audio_index]->codecpar->profile,FF_PROFILE_AAC_LOW);

如果音频格式对应支持的AAC,那么我们就可以进行循环读取音频包数据

  • 读取音频包数据,获得对应的profilesample_rate以及channel
  • 传入包的数据大小
  • ADTS一般是7字节,因此用一个7字节的char数组接收(一个char占1字节)
  • 写入头部后,将头部信息写入文件
  • 写入数据包信息
  • 释放数据包内存
 if(pkt.stream_index == audio_index){char adts_header_buf[7] = {0};adts_header(adts_header_buf, pkt.size,ifmt_ctx->streams[audio_index]->codecpar->profile,ifmt_ctx->streams[audio_index]->codecpar->sample_rate,ifmt_ctx->streams[audio_index]->codecpar->channels);fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用,ts流分离出来的packet带了adts headerlen = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts dataif(len != pkt.size){av_log(NULL, AV_LOG_DEBUG, "warning、, length of writed data isn't equal pkt.size(%d, %d)\n",len,pkt.size);}}av_packet_unref(&pkt);

ADTS格式详解

准备采样率表
  • 这个是固定的,与协议对应
const int sampling_frequencies[] = {96000,  // 0x088200,  // 0x164000,  // 0x248000,  // 0x344100,  // 0x432000,  // 0x524000,  // 0x622050,  // 0x716000,  // 0x812000,  // 0x911025,  // 0xa8000   // 0xb// 0xc d e f是保留的
};
  • 我们这里直接使用48000采样率即可
int sampling_frequency_index = 3; // 默认使用48000hz
写入固定头信息
  • 同步头(12bit),始终为0xfff
p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bits
p_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bits
  • 版本号(1bit),如果使用的是MPEG-2为0,MPEG-4为1
p_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bit
  • layer(2bit),永远是0
p_adts_header[1] |= (0 << 1);    //Layer:0
  • 校验位(protection_absent),0表示有校验,1表示无校验(1bit)
p_adts_header[1] |= 1;           //protection absent:1                     1bit
  • profile(2bit),ffmpeg参考的是MPEG-2,因此这里使用它的枚举值即可
p_adts_header[2] = (profile)<<6;            //profile:profile               2bits
  • 采样率索引,需要转为16进制(2bit)
p_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bits
  • private_bit,固定为0(1bit)
p_adts_header[2] |= (0 << 1);             //private bit:0                   1bit
  • 声道布局,需要转换为16进制(3bit)
p_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bit
p_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bits
  • original_copy,固定为0(1bit)
p_adts_header[3] |= (0 << 5);               //original:0                1bit
  • home,固定为0(1bit)
p_adts_header[3] |= (0 << 4);               //home:0                    1bit
写入可变头
  • copyright_identification_bit,固定为0(1bit
p_adts_header[3] |= (0 << 3);               //copyright id bit:0        1bit
  • copyright_identify_start,固定为0(1bit
p_adts_header[3] |= (0 << 2);               //copyright id start:0      1bit
  • aac_frame_lengthaac数据帧的长度(13bit),通过下面的方式获取:
  1. 如果protection_absent校验位为1,那么aac_frame_length = 7 + sizeof(aac_frame)
  2. 如果protection_absent校验位为0,那么aac_frame_length = 9 + sizeof(aac_frame)

前面设置了校验位为1,因此:

int adtsLen = data_length + 7;
p_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length:value   高2bits
p_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits
p_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bits
  • adts_buffer_fullness11bit),设置为0x7ff表示为可变码流
p_adts_header[5] |= 0x1f;        //buffer fullness:0x7ff 高5bits
p_adts_header[6] = 0xfc;         //buffer fullness:0x7ff 低6bits
  • number_of_raw_data_blocks_in_frame2bit),意义如下:
  1. 表示ADTS帧中有number_of_raw_data_blocks_in_frame+ 1个AAC原始帧。
  2. 因此我们设置number_of_raw_data_blocks_in_frame = 0 表示说ADTS帧中有⼀个AAC数据块。
p_adts_header[6] |= 0 << 2;         //buffer fullness:0x7ff 低6bits

写入的函数如下所示:

#define ADTS_HEADER_LEN  7;const int sampling_frequencies[] = {96000,  // 0x088200,  // 0x164000,  // 0x248000,  // 0x344100,  // 0x432000,  // 0x524000,  // 0x622050,  // 0x716000,  // 0x812000,  // 0x911025,  // 0xa8000   // 0xb// 0xc d e f是保留的
};int adts_header(char * const p_adts_header, const int data_length,const int profile, const int samplerate,const int channels)
{int sampling_frequency_index = 3; // 默认使用48000hzint adtsLen = data_length + ADTS_HEADER_LEN;int frequencies_size = sizeof(sampling_frequencies) / sizeof(sampling_frequencies[0]);int i = 0;for(i = 0; i < frequencies_size; i++){if(sampling_frequencies[i] == samplerate){sampling_frequency_index = i;break;}}if(i >= frequencies_size){printf("unsupport samplerate:%d\n", samplerate);return -1;}p_adts_header[0] = 0xff;         //syncword:0xfff                          高8bitsp_adts_header[1] = 0xf0;         //syncword:0xfff                          低4bitsp_adts_header[1] |= (0 << 3);    //MPEG Version:0 for MPEG-4,1 for MPEG-2  1bitp_adts_header[1] |= (0 << 1);    //Layer:0                                 2bitsp_adts_header[1] |= 1;           //protection absent:1                     1bitp_adts_header[2] = (profile)<<6;            //profile:profile               2bitsp_adts_header[2] |= (sampling_frequency_index & 0x0f)<< 2; //sampling frequency index:sampling_frequency_index  4bitsp_adts_header[2] |= (0 << 1);             //private bit:0                   1bitp_adts_header[2] |= (channels & 0x04)>>2; //channel configuration:channels  高1bitp_adts_header[3] = (channels & 0x03)<<6; //channel configuration:channels 低2bitsp_adts_header[3] |= (0 << 5);               //original:0                1bitp_adts_header[3] |= (0 << 4);               //home:0                    1bitp_adts_header[3] |= (0 << 3);               //copyright id bit:0        1bitp_adts_header[3] |= (0 << 2);               //copyright id start:0      1bitp_adts_header[3] |= ((adtsLen & 0x1800) >> 11);           //frame length:value   高2bitsp_adts_header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bitsp_adts_header[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低3bitsp_adts_header[5] |= 0x1f;                                 //buffer fullness:0x7ff 高5bitsp_adts_header[6] = 0xfc;      //11111100 共八位       //buffer fullness:0x7ff 低6bits// p_adts_header[6] |= 0 << 2;     // number_of_raw_data_blocks_in_frame://    表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。return 0;
}

释放内存

最后还是要释放内存,关闭文件

 // 关闭输入文件
if(ifmt_ctx)
{avformat_close_input(&ifmt_ctx);
}
if(aac_fd)
{fclose(aac_fd);
}
HE-AAC需要调整
#include <stdio.h>
#include <libavutil/log.h>
#include <libavformat/avio.h>
#include <libavformat/avformat.h>#define ADTS_HEADER_LEN  7;const int sampling_frequencies[] = {96000,  // 0x088200,  // 0x164000,  // 0x248000,  // 0x344100,  // 0x432000,  // 0x524000,  // 0x622050,  // 0x716000,  // 0x812000,  // 0x911025,  // 0xa8000   // 0xb// 0xc d e f是保留的
};int adts_header(char * const p_adts_header, const int data_length,const int profile, const int samplerate,const int channels) {int sampling_frequency_index = 3;int adtsLen = data_length + 7; // 修正宏定义问题// 查找采样率索引for (int i = 0; i < sizeof(sampling_frequencies)/sizeof(int); i++) {if (sampling_frequencies[i] == samplerate) {sampling_frequency_index = i;break;}}// 设置ADTS头各字段p_adts_header[0] = 0xFF;p_adts_header[1] = 0xF0;p_adts_header[1] |= 0x01; // protection_absent// Profile设置为传入值(需外部处理HE-AAC情况)p_adts_header[2] = (profile & 0x03) << 6;p_adts_header[2] |= (sampling_frequency_index & 0x0F) << 2;p_adts_header[2] |= (channels >> 3) & 0x01; // 通道高1位p_adts_header[3] = (channels & 0x07) << 5; // 通道低3位p_adts_header[3] |= (adtsLen >> 11) & 0x03;p_adts_header[4] = (adtsLen >> 3) & 0xFF;p_adts_header[5] = (adtsLen & 0x07) << 5;p_adts_header[5] |= 0x1F;p_adts_header[6] = 0xFC;return 0;
}
int main(int argc, char *argv[])
{int ret = -1;char errors[1024];char *in_filename = NULL;char *aac_filename = NULL;FILE *aac_fd = NULL;int audio_index = -1;int len = 0;AVFormatContext *ifmt_ctx = NULL;AVPacket pkt;// 设置打印级别av_log_set_level(AV_LOG_DEBUG);if(argc < 3){av_log(NULL, AV_LOG_DEBUG, "the count of parameters should be more than three!\n");return -1;}in_filename = argv[1];      // 输入文件aac_filename = argv[2];     // 输出文件if(in_filename == NULL || aac_filename == NULL){av_log(NULL, AV_LOG_DEBUG, "src or dts file is null, plz check them!\n");return -1;}aac_fd = fopen(aac_filename, "wb");if (!aac_fd){av_log(NULL, AV_LOG_DEBUG, "Could not open destination file %s\n", aac_filename);return -1;}// 打开输入文件if((ret = avformat_open_input(&ifmt_ctx, in_filename, NULL, NULL)) < 0){av_strerror(ret, errors, 1024);av_log(NULL, AV_LOG_DEBUG, "Could not open source file: %s, %d(%s)\n",in_filename,ret,errors);return -1;}// 获取解码器信息if((ret = avformat_find_stream_info(ifmt_ctx, NULL)) < 0){av_strerror(ret, errors, 1024);av_log(NULL, AV_LOG_DEBUG, "failed to find stream information: %s, %d(%s)\n",in_filename,ret,errors);return -1;}// dump媒体信息av_dump_format(ifmt_ctx, 0, in_filename, 0);// 初始化packetav_init_packet(&pkt);// 查找audio对应的steam indexaudio_index = av_find_best_stream(ifmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);if(audio_index < 0){av_log(NULL, AV_LOG_DEBUG, "Could not find %s stream in input file %s\n",av_get_media_type_string(AVMEDIA_TYPE_AUDIO),in_filename);return AVERROR(EINVAL);}// 打印AAC级别printf("audio profile:%d, FF_PROFILE_AAC_LOW:%d\n",ifmt_ctx->streams[audio_index]->codecpar->profile,FF_PROFILE_AAC_LOW);if(ifmt_ctx->streams[audio_index]->codecpar->codec_id != AV_CODEC_ID_AAC){printf("the media file no contain AAC stream, it's codec_id is %d\n",ifmt_ctx->streams[audio_index]->codecpar->codec_id);goto failed;}// 读取媒体文件,并把aac数据帧写入到本地文件while(av_read_frame(ifmt_ctx, &pkt) >=0 ){if(pkt.stream_index == audio_index){char adts_header_buf[7] = {0};adts_header(adts_header_buf, pkt.size,1,ifmt_ctx->streams[audio_index]->codecpar->sample_rate /2 ,ifmt_ctx->streams[audio_index]->codecpar->channels);fwrite(adts_header_buf, 1, 7, aac_fd);  // 写adts header , ts流不适用,ts流分离出来的packet带了adts headerlen = fwrite( pkt.data, 1, pkt.size, aac_fd);   // 写adts dataif(len != pkt.size){av_log(NULL, AV_LOG_DEBUG, "warning, length of writed data isn't equal pkt.size(%d, %d)\n",len,pkt.size);}}av_packet_unref(&pkt);}failed:// 关闭输入文件if(ifmt_ctx){avformat_close_input(&ifmt_ctx);}if(aac_fd){fclose(aac_fd);}return 0;
}

profile字段错误
HE-AAC(AAC LC + SBR)的Profile值在ADTS头中应设为1(对应AAC LC的Object Type减1),而非直接使用HE-AAC的Profile值(FF_PROFILE_AAC_HE为5)。直接使用导致高位溢出,字段无效。

采样率索引未调整
HE-AAC使用SBR技术时,实际采样率为ADTS头中采样率的两倍。例如,48kHz音频在ADTS头中应使用24kHz的索引(索引6),但代码未进行此调整。

更多资料:https://github.com/0voice

相关文章:

  • Ubuntu与Linux的关系
  • Redis之Java操作redis
  • 性能比拼: Go vs Java
  • 反素数c++
  • 云原生--基础篇-4--CNCF-1-云原生计算基金会(云原生生态发展和目标)
  • 【文件上传/下载Java+vue3——MQ】
  • vue3新增特性
  • KUKA机器人KR 3 D1200 HM介绍
  • [Android]豆包爱学v4.5.0小学到研究生 题目Ai解析
  • Postman下载安装与使用汉化版教程
  • 桌面我的电脑图标不见了怎么恢复 恢复方法指南
  • 虚无隧穿产生宇宙(true nothing tunneling) 是谁提出的
  • MAC系统下完全卸载Android Studio
  • hbuilderx云打包生成的ipa文件如何上架
  • 路由器转发规则设置方法步骤,内网服务器端口怎么让异地连接访问的实现
  • 【白雪讲堂】[特殊字符]内容战略地图|GEO优化框架下的内容全景布局
  • 【AI】SpringAI 第四弹:接入本地大模型 Ollama
  • 如何正确选择培养基种类
  • PaddlePaddle线性回归详解:从模型定义到加载,掌握深度学习基础
  • MacOS 10.15上能跑大语言模型吗?
  • 欧盟就中欧有关世贸争端案件提起上诉仲裁,商务部回应
  • 最大涨幅9800%!金价新高不断,引发期权“末日轮”效应,沪金期权多张合约大涨
  • 华天酒店:2024年归母净亏损约1.81亿元,已连续亏损3年
  • “何以中国·闽山闽水物华新”网络主题宣传活动在福建武夷山启动
  • 又一名被拐孩子找到!29年后,在警方帮助下云南男子寻子成功
  • “HPV男女共防计划”北半马主题活动新闻发布会在京举办