当前位置：首页 > news >正文

从FP32到BF16，再到混合精度的全景解析

news 来源：原创 2025/4/28 1:43:25

笔者做过目标检测模型、超分模型以及扩散生成模型。其中最常使用的是单精度FP32、半精度FP16、BF16。
双精度"FP64"就不说了，不太会用到。

#1. 单精度、半精度和混合精度

单精度（FP32）、半精度（FP16）和混合精度（FP32+FP16） 是常见的浮点数计算格式，在深度学习模型的训练与推理中都有涉及。
它们在计算效率、显存占用和数值稳定性上有显著差异。以下是它们的核心区别对比：

精度类型	位数	显存占用&生成效果	生成速度	用途
FP32	32-bit	🌟🌟🌟🌟最高	🌟最慢	预训练
FP16	16-bit	🌟🌟	🌟🌟🌟	微调训练、推理
BF16	16-bit	🌟🌟	🌟🌟🌟	微调训练、推理
混合精度	FP16+FP32	🌟🌟🌟	🌟🌟	微调训练、推理
FP8 (E4M3)	8-bit	🌟最低	🌟🌟🌟🌟最快	边缘设备推理
FP8 (E5M2)	8-bit	🌟最低	🌟🌟🌟🌟最快	边缘设备推理

注：推理即图像生成。

#2. BF16（Brain Float16）是什么？

简单的说，「BF16」的显存占用与「FP16」相近，但稳定性与训练效果更好。所以在训练时建议用「BF16」替代「FP16」。

「BF16」由 Google Brain 提出，保留与 FP32 相同的指数位数（8 位指数），仅降低小数位数（从FP32的23 位缩减到7位）。虽然BF16点小数部分精度低于 FP16的10位，但这部分对深度学习影响较小，可以暂时忽略。

#3. 混合精度（FP16 + FP32）是什么？

混合精度会同时使用 FP16 和 FP32，关键部分（如梯度更新）保留 FP32。

笔者一般会直接使用自动混合精度（AMP），即让程序自己选择精度，一般来讲模型权重会保存为FP32，前向与反向传播用FP16。

#4. FP8的简单了解

实际中很少使用FP8，因为它们的生成效果几乎是最差的（不管INT8），基本只会用于边缘设备（如RV1126等）。所以只需简单了解：

E5M2（5 位指数，2 位小数）：动态范围大，适合梯度计算（训练）。
E4M3（4 位指数，3 位小数）：精度稍高，适合前向传播（生成）。

相关文章：

深度解析 Java 泛型通配符 `＜? super T＞` 和 `＜? extends T＞`

Cancer Cell｜scRNA-seq + scTCR + 空间多组学整合分析，揭示CD8⁺ T细胞在免疫治疗中的“双路径” | 临床问题的组学解答

Tailwind CSS实战：快速构建定制化UI的新思路

【CUDA 编译 bug】ld: cannot find -lcudart

手工收集统计信息

管家婆财贸ERP BB103.收款单按明细核算部门项目

Q2桥门式起重机司机考试复习重点

16.ArkUI Toggle的介绍和使用

软件测试流程

Mac中 “XX”文件已损坏，无法打开解决方案

系统架构师2025年论文《论软件架构评估2》

DeepSeek+Cline：开启自动化编程新纪元

guvcview-源码记录

蓝牙GATT协议

认识 Linux 内存构成：Linux 内存调优之页表、TLB、缺页异常、大页认知

蛋白质大语言模型ESM介绍

前端基础之《Vue（12）—插件封装》

什么是 JSON？学习JSON有什么用？在springboot项目里如何实现JSON的序列化和反序列化？

docker-compose安装RustDesk远程工具

tkinter的窗口构建、原生组件放置和监测事件

美媒：受关税政策影响，美国电商平台近千种商品平均涨价29%

宣称防老年痴呆的“原装进口”保健品McPee被指涉假，未获澳方销售批准

上海论坛2025年会聚焦创新的时代，9份复旦智库报告亮相

铜钴巨头洛阳钼业一季度净利润同比大增九成，最新宣布首度进军黄金矿产

珠海市香洲区原区长刘齐英落马，此前已被终止省人大代表资格

2025年全国贸易摩擦应对工作会议在京召开