当前位置: 首页 > news >正文

视频编解码种类/技术/区别/优缺点汇总

视频编解码种类/技术/区别/优缺点汇总

  • 按国家/机构划分的全球主要视频编码标准 (含优缺点)
  • 视频编解码涉及到的主要技术及通俗解释
  • 主流视频编码标准的实现方式

按国家/机构划分的全球主要视频编码标准 (含优缺点)

组织/国家分类标准名称 (常用名/别名)推出年份 (约)主要制定组织/背景优点 (Pros)缺点 (Cons)版税状况
国际合作 (ITU-T & ISO/IEC MPEG)联合或独立制定,全球影响力最大
H.1201984/1988ITU-T开创性工作,奠定基础概念压缩效率极低,图像质量差,基本已被淘汰传统标准 (通常需版税)
H.2611988/1990ITU-T VCEG第一个实用标准,引入核心技术 (宏块, DCT, MC)效率低,仅适用于低分辨率和低码率场景 (如 ISDN)传统标准 (通常需版税)
MPEG-1 Part 21993ISO/IEC MPEG首次实现消费级数字视频 (VCD),简单易实现压缩效率有限,质量不高,主要针对渐进式需版税
H.262 / MPEG-2 Part 21995ITU-T VCEG & ISO/IEC MPEG (联合)极其成功,广泛硬件支持,成熟稳定,良好支持隔行扫描 (广播)压缩效率远低于现代标准,版税要求需版税 (MPEG LA)
H.2631996+ITU-T VCEG针对低码率优化,推动了早期移动视频和视频会议效率和质量不如 H.264,应用场景受限需版税
MPEG-4 Part 2 (Visual)1999ISO/IEC MPEG相比 MPEG-2 效率提升,ASP Profile 流行 (DivX/Xvid 基础)相比 H.264 效率较低,Profile 众多易混淆,需版税需版税
H.264 / MPEG-4 Part 10 AVC2003JVT (ITU-T VCEG & ISO/IEC MPEG)优异的压缩效率与计算复杂度平衡,极广泛的应用和硬件支持,技术成熟,生态完善相比 HEVC/AV1 等效率较低 (尤其高分辨率),需支付版税需版税 (MPEG LA, Access Advance)
H.265 / MPEG-H Part 2 HEVC2013JVET (ITU-T VCEG & ISO/IEC MPEG)相比 H.264 效率显著提升 (~50%),非常适合 4K/8K/HDR 内容版税政策复杂且昂贵 (多个专利池),阻碍广泛采用;计算复杂度显著高于 H.264需版税 (多个版税池, 复杂)
EVC (MPEG-5 Part 1)2020ISO/IEC MPEG提供免版税的基础层选项,主层版税政策可能更清晰性能介于 HEVC/VVC 之间,生态系统非常不成熟,应用前景不明Baseline 免版税, Main 需版税
H.266 / MPEG-I Part 3 VVC2020JVET (ITU-T VCEG & ISO/IEC MPEG)目前标准化中压缩效率最高,功能更全面 (360°, 屏幕内容等)计算复杂度非常高,版税政策尚不明朗 (预计复杂且昂贵),硬件支持和应用刚起步需版税 (政策形成中, 可能复杂)
LCEVC (MPEG-5 Part 2)2021ISO/IEC MPEG可增强现有编解码器性能,降低升级到全新编解码器的复杂度,可能加速高质量视频部署非独立编解码器,增加了系统复杂性,其自身版税和效果依赖于基础层编解码器叠加在基础编解码器上 (有版税)
美国 (主导/开源)以 Google 及 AOMedia 联盟为代表,推动开放/免版税
VP82008On2 Tech / Google (开源)开放,Google 承诺免版税,WebM/WebRTC 集成效率普遍低于 H.264,曾面临专利挑战谷歌承诺免版税 (曾有争议)
VP92013Google (开源)开放,Google 承诺免版税,效率接近 HEVC,广泛部署于 YouTube/Chrome/Android解码复杂度高于 H.264,部分场景效率略逊于 HEVC谷歌承诺免版税
AV1 (AOMedia Video 1)2018Alliance for Open Media (AOMedia)完全免版税 (核心优势),效率优于 HEVC/VP9,获得主要科技公司支持,生态快速发展计算复杂度非常高 (尤其编码),硬件解码支持仍在普及中 (但进展快),编码器成熟度仍在提升免版税 (核心优势)
VC-1 (SMPTE 421M)2006Microsoft / SMPTE曾是蓝光标准之一,性能接近早期 H.264版权需要付费,采用率远低于 H.264,已基本退出主流需版税
中国 (自主标准)AVS 工作组制定,国家推动
AVS (第一代)2006AVS 工作组中国自主知识产权,国内版税政策优惠,性能接近 H.264国际认知度和应用范围有限,生态系统相对较小中国国内政策优惠
AVS+2012AVS 工作组AVS 增强版,提升了性能主要限于中国国内应用中国国内政策优惠
AVS22016AVS 工作组性能对标 HEVC,支持超高清,已被中国 4K 频道采用国际应用和硬件支持有限,生态系统主要在中国中国国内政策优惠
AVS32021/2022AVS 工作组性能对标 VVC/AV1,面向 8K+ 和未来应用仍处于早期推广阶段,国际影响力和生态系统待建中国国内政策优惠
其他组织特定机构或基金会
Theora2004Xiph.Org Foundation (基于 VP3)开源,免版税压缩效率较低,远不如 H.264 及之后标准,应用范围小免版税
Dirac / VC-2 (SMPTE 2042-1)2008BBC (英国) / SMPTE开源,免版税,采用不同技术路线 (小波变换)应用非常小众,主要限于 BBC 内部和特定专业领域免版税

视频编解码涉及到的主要技术及通俗解释

我们来用通俗易懂的方式详细解释一下视频编码中的这四大核心技术:预测、变换、量化和熵编码。

想象一下,你要把一部电影通过网络传给朋友,但文件太大了,传起来又慢又费流量。视频编码就像是给这部电影进行一次超级打包压缩,目标是让文件变得尽可能小,同时保证朋友收到后解开(解码)看到的画面质量尽可能好。这四大技术就是这个打包压缩过程中的关键步骤。

这些技术的核心在于它们都遵循相似的混合编码框架 (Hybrid Coding Framework),主要包括:预测 (Prediction)、变换 (Transform)、量化 (Quantization) 和熵编码 (Entropy Coding)。标准的演进主要体现在对这几个模块进行不断优化和引入更复杂的工具,以提高压缩效率。


1. 预测 (Prediction) - 减少“重复”信息

  • 核心思想: 视频画面中有很多内容是重复或者相似的。比如,相邻的两帧画面(时间上重复),或者同一帧画面内相邻的区域(空间上重复)。预测技术就是利用这种重复性,不去传输完整的信息,而是传输“变化”或“差异”的部分。
  • 怎么做?
    • 帧间预测 (Inter Prediction): 这是最主要的预测方式。想象一下电影里一个人物走路的场景,从第 1 秒到第 2 秒,大部分背景可能没变,人物也只是位置移动了一点。
      • 工作原理: 编码器会参考已经编码好的前一帧(或者后面的帧,甚至前后多帧),在参考帧里找到和当前要编码的图像块最相似的一个块。
      • 输出: 它不会传输当前块的所有像素信息,而是告诉解码器:“你去参考第 X 帧的 Y 位置,把那个块‘搬’过来,稍微调整一下(比如移动几个像素),这就是对当前块的预测了。” 这个“搬运指令”就是运动矢量 (Motion Vector),它记录了从参考块到当前块的位置差异(方向和距离)。
      • 效果: 对于运动不大的区域,预测块和实际块会非常像,它们之间的**差值(预测残差)**就会很小,甚至很多地方是零。需要传输的数据就从“整个图像块”变成了“一个运动矢量 + 很小的差值数据”,大大减少了数据量。
    • 帧内预测 (Intra Prediction): 这个主要用在没有合适参考帧(比如视频第一帧,或者场景切换后的第一帧)或者帧间预测效果不好的时候。它利用的是同一帧画面内部像素的相关性。
      • 工作原理: 编码器看当前要编码的块左边和上边(这些是已经编码好的邻居)的像素值,根据这些邻居像素来“猜测”当前块应该是什么样子。比如,如果左边的像素是一条横线延伸过来,它可能就预测当前块也是这条横线的一部分。有很多种预测模式(比如水平、垂直、对角线、平均值等),编码器会选一种预测效果最好的。
      • 输出: 同样,只传输“用哪种模式预测”的信息,以及预测块和实际块之间的差值(预测残差)
      • 效果: 对于纹理简单或者有明显方向性的区域,预测效果好,差值小,也能节省数据。
  • 通俗比喻:
    • 帧间预测就像玩“找不同”游戏,你不需要重新画两幅几乎一样的画,只需要圈出不同的地方就行了。运动矢量就是告诉你“不同之处”在哪里。
    • 帧内预测就像是你画画时,画到一个地方,会参考旁边已经画好的颜色和线条来继续画,而不是凭空想象。
  • 目标: 通过各种预测,得到一个“预测图像块”。原始图像块减去这个预测块,就得到了预测残差 (Residual)。这个残差通常包含了图像的细节和预测不准的部分,它的数据量比原始图像块小得多,能量也更分散。

2. 变换 (Transform) - 集中“能量”,方便处理

  • 核心思想: 预测残差虽然数据量少了,但还是像素值的形式,直接压缩效率不高。变换的作用是把这些残差数据从“空间域”(一个个像素点)变到“频域”(描述图像变化的快慢)。这样做的好处是能把残差中大部分的“能量”或者说信息集中到少数几个数值上。
  • 怎么做?
    • 工作原理: 最常用的变换是离散余弦变换 (DCT - Discrete Cosine Transform) 或其变种。你可以把它想象成一个数学魔术,它能把一个图像块(比如 8x8 的残差块)分解成一组“频率成分”。
      • 低频成分: 代表图像中平缓变化的部分(比如大面积的颜色)。这些成分通常包含了残差块的主要能量。变换后,它们对应的值会比较大。
      • 高频成分: 代表图像中剧烈变化的部分(比如边缘、细节、噪声)。这些成分通常能量较小。变换后,它们对应的值会比较小,很多甚至接近零。
    • 输出: 变换后得到的是一组变换系数 (Transform Coefficients),不再是像素值了。这个系数矩阵左上角的值(DC 系数)代表了整个块的平均能量或亮度,越往右下角的值代表的频率越高,数值通常越小。
  • 通俗比喻:
    • 就像声音可以用均衡器分解成低音、中音、高音一样。变换就是把图像残差也分解成“粗糙”部分(低频)和“细节”部分(高频)。通常,“粗糙”部分包含了大部分信息,“细节”部分信息量相对少。
    • 也像把一堆杂乱的沙子(残差像素)过筛子,筛出不同粗细的颗粒(频率成分)。大部分重量可能集中在少数几种粗颗粒上。
  • 目标: 能量集中。把原来分散在很多像素上的信息,集中到少数几个低频系数上。这样,接下来的量化步骤就可以“大刀阔斧”地处理那些不那么重要的高频系数了。

3. 量化 (Quantization) - “有损”压缩,丢弃不重要信息

  • 核心思想: 这是视频编码中主要造成信息损失 (Lossy) 的一步,也是实现高压缩率的关键。它的目标是进一步减少数据量,方法是降低变换系数的精度,把那些人眼不太敏感的信息(通常是高频细节)丢弃掉。
  • 怎么做?
    • 工作原理: 对每个变换系数,都用一个叫做量化步长 (Quantization Step Size) 的值去除它,然后取整(比如四舍五入)。
      • 量化步长: 这个值的大小可以控制压缩程度和质量。步长越大,除完再取整后,原来的系数变化就越大,丢失的信息越多,压缩率越高,但图像质量越差。步长越小,精度保留得越多,压缩率越低,图像质量越好。
      • 关键效果: 很多本来数值就小的系数(尤其是高频系数),经过除法和取整后,会直接变成 0!数值大的系数,其精度也会降低。
    • 输出: 得到一堆量化后的变换系数 (Quantized Coefficients)。这个矩阵里会有大量的零,非零的系数也都是整数,并且数值范围变小了。
  • 通俗比喻:
    • 就像用一把不太精确的尺子量身高。本来是 175.3 厘米,用厘米尺量就是 175 厘米;如果用分米尺量,可能就记作 1.8 米(假设四舍五入到分米)。精度降低了,但记录用的数字变少了。量化步长就是尺子的刻度大小。
    • 也像把一幅色彩丰富的画,减少使用的颜色种类。比如把相近的几种蓝色都统一成一种蓝色。细节丢失了,但描述这幅画需要的信息变少了。
  • 目标: 大幅减少需要编码的数据量,特别是通过产生大量的零系数。这是以牺牲部分图像细节和精度为代价的。质量和码率的平衡主要就是通过调整量化步长来实现的。

4. 熵编码 (Entropy Coding) - “无损”压缩,高效打包

  • 核心思想: 经过量化后,我们得到了一堆包含很多零的、数值范围较小的整数系数,还有之前预测产生的运动矢量、预测模式等信息。熵编码的任务是利用这些数据的统计特性,用尽可能少的比特数把它们无损地表示出来,打包成最终的比特流。
  • 怎么做?
    • 工作原理: 基于信息论的原理,给出现频率高的符号(比如量化系数中的 0,或者最常见的运动矢量差值)分配短的二进制码字,给出现频率低的符号分配长的码字。
    • 常用技术:
      • 行程编码 (Run-Length Encoding, RLE): 对连续出现的相同符号(尤其是 0)进行压缩。比如 0, 0, 0, 0, 0 可以表示成 (5, 0),意思是“5 个 0”。
      • 变长编码 (Variable-Length Coding, VLC): 如 Huffman 编码或 H.264 中的 CAVLC。为每个可能出现的符号(或符号组合)预先分配一个不等长的二进制码,常用符号码短,罕见符号码长。
      • 算术编码 (Arithmetic Coding): 如 H.264/H.265/H.266 中的 CABAC,或 AV1 中的编码方式。它把整个要编码的数据序列映射到 0 到 1 之间的一个小数区间,区间越小,表示这个序列需要的比特数越多。它通常比 VLC 效率更高,尤其是在处理概率分布不均匀或者符号之间有关联(上下文相关)的情况时。它会根据前面编码的符号来动态调整当前符号的概率预测,进一步提高压缩效率。
    • 输出: 最终的、压缩后的二进制比特流 (Bitstream)。这个比特流就可以通过网络传输或者存储了。
  • 通俗比喻:
    • 就像发电报用的摩尔斯电码,最常用的字母 E 只有一个点 .,而不太常用的字母 Q 是 --.-
    • 也像我们写文章时用“等”字代替列举很多类似的东西,或者用缩写代替长词一样。
  • 目标: 在不丢失任何信息的前提下(解码器可以完全恢复出量化后的系数、运动矢量等信息),用最紧凑的方式表示这些数据,完成压缩的最后一步。

总结一下流程:

  1. 预测: 猜图像块长什么样(利用时间和空间冗余),得到预测块。
  2. 计算残差: 原始块 - 预测块 = 预测残差 (差异)。
  3. 变换: 把残差从像素域转到频域,集中能量。
  4. 量化: 降低系数精度,丢弃不重要信息,产生大量零 (有损)。
  5. 熵编码: 高效地表示量化后的系数和预测信息,打包成最终比特流 (无损)。

解码过程就是这个流程的逆向操作:熵解码 -> 反量化 -> 反变换 -> 加上预测块 = 重建图像。

这四大技术协同工作,共同实现了视频数据的高效压缩。标准的不断发展,就是在这四个核心环节上引入更复杂、更精妙的算法,以在相同的码率下获得更好的图像质量,或者在相同的图像质量下使用更低的码率。

主流视频编码标准的实现方式

我们来详细解析 H.264, H.265, H.266, VP8, VP9, AV1, AVS, AVS+, AVS2, AVS3 这些视频编码标准背后的关键实现技术。


1. H.264 / AVC (Advanced Video Coding)

  • 目标: 相比 MPEG-2 提高约 50% 的压缩效率。
  • 关键技术:
    • 块划分 (Partitioning):
      • 宏块 (Macroblock): 基本处理单元为 16x16 像素。
      • 灵活的块大小: 宏块可进一步划分为 16x8, 8x16, 8x8 的子块进行帧间预测。8x8 子块还可再划分为 8x4, 4x8, 4x4,最小到 4x4 像素块进行运动补偿。这种灵活性更好地适应了不同区域的运动复杂度。
    • 预测 (Prediction):
      • 帧内预测 (Intra Prediction): 利用当前帧内已编码的相邻像素来预测当前块。提供多种预测模式(4x4 块有 9 种模式,16x16 块有 4 种模式),编码器选择最佳模式。
      • 帧间预测 (Inter Prediction / Motion Compensation):
        • 多参考帧 (Multiple Reference Frames): 预测当前块时,可从过去或未来的多帧(最多 16 帧)中选择参考块,提高了找到相似块的可能性。
        • 1/4 像素精度运动矢量 (Quarter-Pixel Motion Vectors): 通过对参考帧进行插值,实现更精细的运动补偿,减少预测残差。
        • B 帧 (Bi-predictive frames): 可以同时从过去和未来的帧进行预测,进一步提高效率。
    • 变换 (Transform):
      • 整数变换 (Integer Transform): 主要使用 4x4 整数离散余弦变换 (Integer DCT)。避免了浮点运算的精度问题,易于硬件实现。High Profile 中引入了 8x8 整数 DCT。还使用 4x4 哈达玛变换处理 16x16 宏块的 DC 系数。
    • 量化 (Quantization):
      • 标量量化 (Scalar Quantization): 对变换后的系数进行量化,去除不重要的信息。使用量化参数 (QP) 控制量化程度。
    • 环路滤波 (In-Loop Filtering):
      • 去块效应滤波器 (Deblocking Filter): 在编码环路内部(解码器端也会执行)对块边界进行平滑处理。这不仅改善了主观视觉质量,更重要的是提高了后续帧的预测精度。这是 H.264 的一个关键创新。
    • 熵编码 (Entropy Coding):
      • CAVLC (Context-Adaptive Variable-Length Coding): 复杂度较低,适用于基准配置。
      • CABAC (Context-Adaptive Binary Arithmetic Coding): 复杂度较高,但压缩效率比 CAVLC 提升约 10-15%。它根据已编码的语法元素的上下文来动态调整概率模型,进行算术编码。

2. H.265 / HEVC (High Efficiency Video Coding)

  • 目标: 相比 H.264 提高约 50% 的压缩效率,支持更高分辨率 (4K/8K) 和 HDR。
  • 关键技术 (在 H.264 基础上增强):
    • 块划分 (Partitioning):
      • 编码树单元 (Coding Tree Unit, CTU): 取代宏块,大小可配置 (如 64x64, 32x32, 16x16),通常比宏块大。
      • 递归四叉树结构 (Quadtree Structure): CTU 可以递归地划分为更小的编码单元 (Coding Units, CU)。CU 是进行预测和变换决策的基本单元。这种结构能更好地适应图像内容,大 CU 用于平坦区域,小 CU 用于细节区域。
      • 预测单元 (Prediction Unit, PU) 和变换单元 (Transform Unit, TU): CU 内部可以进一步划分为一个或多个 PU(进行预测)和 TU(进行变换)。PU 可以是方形或矩形 (包括非对称划分 AMP),TU 也是四叉树结构,大小可以独立于 PU。
    • 预测 (Prediction):
      • 帧内预测 (Intra Prediction): 模式增加到 35 种 (33 种角度模式 + DC + Planar),提供更精细的方向预测。
      • 帧间预测 (Inter Prediction):
        • 高级运动矢量预测 (Advanced Motion Vector Prediction, AMVP): 根据空域或时域相邻块的运动矢量生成候选列表,编码器只需传输索引和差值,减少 MV 比特。
        • 合并模式 (Merge Mode): 直接继承邻近块(空域或时域)的完整运动信息(包括参考帧索引和运动矢量),比特开销极低。
    • 变换 (Transform):
      • 多尺寸变换: TU 大小可变 (从 4x4 到 32x32),根据 TU 尺寸选择相应的整数 DCT/DST (离散正弦变换,用于某些帧内模式)。
    • 环路滤波 (In-Loop Filtering):
      • 去块效应滤波器 (Deblocking Filter): 类似 H.264,但适应 CTU 结构。
      • 样点自适应偏移 (Sample Adaptive Offset, SAO): 在去块效应滤波之后,对样点值进行分类,并应用偏移量来补偿原始信号与重建信号之间的均值偏差,进一步减少失真,特别是振铃等伪影。
    • 熵编码 (Entropy Coding):
      • CABAC: 仅使用 CABAC,并对其进行了优化。
    • 并行处理:
      • Tiles 和 WPP (Wavefront Parallel Processing): 将图像划分为矩形区域 (Tiles) 或行 (Slices),并设计了 WPP 机制,使得不同区域可以并行解码,适应多核处理器。

3. H.266 / VVC (Versatile Video Coding)

  • 目标: 相比 HEVC 再提高约 40-50% 的压缩效率,支持更广泛应用 (360°视频, 屏幕内容, HDR/WCG)。
  • 关键技术 (在 HEVC 基础上进一步增强):
    • 块划分 (Partitioning):
      • 四叉树加多类型树 (Quad-tree plus Multi-Type Tree, QT+MTT): 在 HEVC 的四叉树基础上,引入了更灵活的二叉树 (Binary Tree, BT) 和三叉树 (Ternary Tree, TT) 划分,允许水平或垂直方向的划分。最大 CTU 尺寸可达 128x128。极大增强了对各种纹理和边缘的适应性。
    • 预测 (Prediction):
      • 帧内预测 (Intra Prediction): 模式增加到 67 种 (65 种角度 + DC + Planar),引入宽角度帧内预测 (WAIP)、跨分量线性模型 (CCLM) 预测色度、基于矩阵的帧内预测 (MIP)。
      • 帧间预测 (Inter Prediction):
        • 仿射运动补偿 (Affine Motion Compensation): 使用仿射模型(4 或 6 参数)来描述更复杂的运动,如缩放和旋转。
        • 自适应运动矢量精度 (Adaptive Motion Vector Resolution, AMVR): 允许运动矢量精度在 1/4 像素和整数像素之间切换。
        • 合并模式增强 (Merge with Motion Vector Difference, MMVD): 在 Merge 模式基础上增加小的运动矢量差值。
        • 几何划分模式 (Geometric Partitioning Mode, GPM): 将块划分为两个区域,分别进行运动补偿。
        • 组合帧间帧内预测 (Combined Inter-Intra Prediction, CIIP): 结合帧间预测和帧内预测的结果。
        • 解码器端运动矢量优化 (Decoder-side Motion Vector Refinement, DMVR): 解码器根据双向预测的匹配程度微调运动矢量。
        • 双向光流法 (Bi-directional Optical Flow, BDOF): 基于光流模型修正预测信号。
    • 变换 (Transform):
      • 多变换核选择 (Multiple Transform Selection, MTS): 根据预测模式和块特性选择不同的变换核 (DCT-II, DST-VII, DCT-VIII, DST-I)。
      • 子块变换 (Sub-block Transform, SBT): 对大的预测残差块应用更小的变换。
      • 低频不可分变换 (Low Frequency Non-Separable Transform, LFNST): 对低频系数应用更小的非分离变换。
    • 环路滤波 (In-Loop Filtering):
      • 自适应环路滤波 (Adaptive Loop Filter, ALF): 在 Deblocking 和 SAO 之后,使用自适应的维纳滤波器或高斯滤波器进一步减少失真。
    • 其他:
      • 亮度映射与色度缩放 (Luma Mapping with Chroma Scaling, LMCS): 改善 HDR 内容的编码。
      • 屏幕内容编码 (Screen Content Coding, SCC) 工具: 如帧内块拷贝 (Intra Block Copy)、调色板模式 (Palette Mode) 等,高效编码计算机生成的内容。

4. VP8

  • 目标: 开源、免版税,作为 WebM 项目的一部分,与 H.264 基准配置竞争。
  • 关键技术:
    • 块划分: 16x16 宏块,可划分为 4x4 子块进行运动补偿。
    • 预测:
      • 帧内预测: 相对简单,4x4 块有 4 种模式,16x16 块有 1 种 (TM_PRED),色度有 4 种。
      • 帧间预测: 支持 P 帧,使用三个参考帧缓冲区 (Last, Golden, AltRef),1/4 像素精度运动补偿 (使用 6 抽头滤波器)。
    • 变换: 4x4 类 DCT 整数变换 (基于哈达玛变换),对 16x16 块的 DC 系数进行额外的 4x4 WHT 变换。
    • 量化: 标量量化。
    • 环路滤波: 包含一个比 H.264 简单的去块效应滤波器。
    • 熵编码: 基于布尔算术编码,具有上下文自适应性。

5. VP9

  • 目标: 开源、免版税,相比 VP8 提高约 50% 效率,与 H.265/HEVC 竞争。
  • 关键技术 (在 VP8 基础上增强):
    • 块划分:
      • 超块 (Superblock): 类似 HEVC 的 CTU,大小为 64x64,可递归四叉树划分为 4x4。
    • 预测:
      • 帧内预测: 10 种模式 (8 种方向 + DC + TM)。
      • 帧间预测:
        • 复合预测 (Compound Prediction): 可从两个参考帧进行平均预测。
        • 1/8 像素精度运动补偿。
        • 参考帧增强: 更多参考帧槽位 (8 个),每个块可引用 3 个参考帧。
    • 变换: 多尺寸变换: 支持 4x4, 8x8, 16x16, 32x32 的 DCT 和非对称 DST (ADST)。
    • 环路滤波: 去块效应滤波器,适应超块结构。
    • 熵编码: 优化的算术编码器,改进的上下文模型。
    • 并行处理: Tiles: 支持将图像划分为可独立解码的 Tile。

6. AV1 (AOMedia Video 1)

  • 目标: 开源、完全免版税,效率优于 VP9 和 HEVC (目标 ~30%+ 提升)。
  • 关键技术 (集成了 Google VPx, Mozilla Daala, Cisco Thor 的技术):
    • 块划分:
      • 超块 (Superblock): 支持 64x64 和 128x128,极其灵活的划分方式,包括递归四叉树、二叉树、三叉树以及 T 形划分等。
    • 预测:
      • 帧内预测: 极其丰富,包括 56 种方向模式、DC、Smooth、Paeth (预测器选择)、调色板模式 (Palette)、基于亮度的色度预测 (Chroma from Luma, CfL)。引入递归帧内预测。
      • 帧间预测:
        • 高级复合预测: 包括加权平均、掩码预测 (Wedge, Difference-based) 等。
        • 扭曲运动/仿射运动 (Warped Motion / Affine): 更好地处理缩放、旋转等复杂运动。
        • 重叠块运动补偿 (Overlapped Block Motion Compensation, OBMC): 平滑块边界,减少预测残差。
        • 全局运动模型 (Global Motion): 对摄像机运动进行建模。
        • 丰富的参考帧机制: 多达 7 个参考帧可用。
    • 变换:
      • 多尺寸 (最大 64x64)、多形状 (方形、矩形)、多类型 (DCT, ADST, Identity, WHT)。 支持递归变换。
    • 环路滤波:
      • 去块效应滤波器 (Deblocking Filter)。
      • 约束方向增强滤波器 (Constrained Directional Enhancement Filter, CDEF): 针对振铃等方向性伪影进行滤波。
      • 环路恢复滤波器 (Loop Restoration Filter): 使用自导向滤波器 (Self-Guided) 或维纳滤波器 (Wiener) 进一步恢复图像质量。
    • 熵编码: 高效的非二元算术编码 (ANS 变种),非常复杂的上下文模型。
    • 其他: 电影颗粒合成 (Film Grain Synthesis): 在解码端合成颗粒,以低码率还原电影质感。 Tiles 和 Frame Parallel 等并行处理机制。

7. AVS, AVS+, AVS2, AVS3 (中国标准)

这是一个系列标准,技术上通常对标同期的 H.26x 系列,但在具体实现和专利归属上有所不同。

  • AVS (第一代):
    • 目标: 对标 H.264/AVC。
    • 技术特点: 采用 16x16 宏块,但主要使用 8x8 整数 DCT 变换 (这是与 H.264 主配置的一个显著区别)。支持帧内预测 (模式数类似 H.264)、帧间预测 (1/4 像素精度,多参考帧,B 帧)、环路去块滤波。提供“基准档次”(Jizhun Profile),简化了部分功能 (如无 B 帧) 以降低复杂度。
  • AVS+:
    • 目标: AVS 的增强版,提升效率,主要用于广播。
    • 技术特点: 在 AVS 基础上进行优化,可能引入了 H.264 更高 Profile 中的一些技术,提升了压缩性能。具体技术细节公开信息相对较少。
  • AVS2:
    • 目标: 对标 H.265/HEVC,面向超高清 (4K) 应用。
    • 技术特点: 采用了类似 HEVC 的技术框架:
      • 更大的编码单元: 类似 HEVC 的 CU (如 64x64),支持四叉树划分。
      • 更多的帧内预测模式。
      • 高级运动矢量预测技术: 类似 AMVP 和 Merge 模式。
      • 环路滤波: 可能包含去块滤波和类似 SAO 的滤波机制。
    • 关键在于使用这些技术的同时,形成具有中国自主知识产权的专利组合。
  • AVS3:
    • 目标: 对标 H.266/VVC 和 AV1,面向 8K 及未来应用。
    • 技术特点: 采用了当前最先进的编码技术理念:
      • 更灵活的块划分: 很可能采用了类似 VVC 的 QT+MTT (四叉树+多类型树) 结构。
      • 更多的帧内和帧间预测工具: 可能包括仿射运动补偿、更复杂的帧内模式等。
      • 先进的环路滤波: 可能引入了类似 ALF 的滤波技术。
      • 针对特定内容的优化: 可能包含针对屏幕内容、监控视频等的工具。
    • 同样,目标是在技术性能上达到国际先进水平,并构建自主可控的专利体系。

总结:

视频编码标准的演进体现了在混合编码框架内不断追求极致压缩效率的过程。主要的手段包括:

  1. 更灵活、更精细的块划分: 从固定宏块到 CTU/Superblock,再到 QT+MTT 等复杂结构,更好地适应图像内容。
  2. 更精准、更多样的预测: 帧内预测模式越来越多,帧间预测引入更复杂的运动模型 (仿射、光流) 和更智能的运动矢量编码 (Merge, AMVP 等)。
  3. 更有效的变换: 从固定 4x4/8x8 DCT 到多尺寸、多类型变换核。
  4. 更强大的环路滤波: 从简单的去块滤波到 SAO、ALF、CDEF 等多级滤波,最大限度减少编码失真。
  5. 更高效的熵编码: 从 VCL 到 CABAC 再到非二元算术编码,不断逼近信息熵极限。
  6. 并行处理设计: 适应多核处理器,提高编解码速度。

这种演进也带来了计算复杂度的急剧增加,对硬件处理能力提出了更高的要求。同时,版税政策也成为影响标准采纳的重要因素,催生了像 AV1 这样的免版税标准。

相关文章:

  • 多模态记忆融合:基于LSTM的连续场景生成——突破AI视频生成长度限制
  • 【Qt】初识Qt(二)
  • Oracle 11g通过dg4odbc配置dblink连接PostgreSQL
  • 2021-11-09 C++倍数11各位和为13
  • 25MathorCup选题浅析(睡醒扫一眼题目版)
  • C++程序设计基础实验:C++对C的扩展特性与应用
  • 免费将静态网站部署到服务器方法(仅支持HTML,CSS,JS)
  • 混合精度(Mixed Precision)在科学计算领域应用
  • HAL详解
  • 优化自旋锁的实现
  • npx 的作用以及延伸知识(.bin目录,npm run xx 执行)
  • 大语言模型减少幻觉的常见方案
  • 软考-信息系统项目管理师-2 信息技术发展
  • 360蜘蛛IP完整版,360搜索引擎蜘蛛IP列表.pdf
  • 吃透LangChain(五):多模态输入与自定义输出
  • ftok函数 ---- 生成一个唯一的 System V IPC 键值
  • IP检测工具“ipjiance”
  • ProfibusDP转ModbusRTU网关,流量计接入新方案!
  • CentOS系统中排查进程异常终止的日志
  • 标题:民锋视角下的节奏演变逻辑:探寻市场波动的内在秩序
  • 抖音:卤鸭店老板账号视频多为虚构演绎,禁言30天
  • 神舟二十号任务完成最后一次全区合练,发射场做好发射前各项准备
  • 读懂城市丨“花木之乡”沭阳,一场持续五年的“诚信实验”
  • 白宫慌了!将设工作组紧急处理对中国加征关税危机
  • “云南舞蹈大家跳”暨牟定“三月会”下周举行,城际公交免票
  • 黄金投资热,成了“财富焦虑”的贩卖场