当前位置：首页 > news >正文

体系结构论文（七十一）:Quantifying the Impact of Data Encoding on DNN Fault Tolerance

news 来源：原创 2025/4/22 3:30:16

Quantifying the Impact of Data Encoding on DNN Fault Tolerance

编码方式影响容错性：
- 将权重从传统的二进制补码（two’s complement）改为符号-幅度编码（sign-magnitude, SM）后，
- 模型能容忍的最大位错误率（Bit Error Rate, BER）提升了多达10倍。
- 在某些模型中，SM编码的容错能力几乎等同于“理想情况下保护符号位（oracle sign protection）”。
训练实例之间的容错差异显著：
- 即使是使用相同的超参数、模型架构和数据集进行训练，不同随机种子下的模型，其容错能力也会有多达5倍的差异。
- 在实际应用（如自动驾驶）中，假设重训练模型的容错性一致是不安全的假设。
SM编码能减少模型间容错波动：
- SM编码相比二进制补码，在多次训练中表现出更小的容错性差异（variance），尤其是在10%精度下降容差阈值下，SM的方差比补码低6倍。

一、研究动机和背景

作者主要有三点关键发现：

编号	贡献内容
1️⃣	相比于传统的补码（Two's Complement）编码，符号-幅度（Sign-Magnitude, SM）编码可将DNN的容错性提高最多10倍，效果几乎等同于“只保护符号位”的理想方案（Oracle Sign Protection）。
2️⃣	在使用相同网络结构和训练超参数的情况下，不同随机种子训练出的模型，其容错能力差异可能高达 5倍。
3️⃣	与补码相比，SM 编码使模型容错性的波动性降低约 4 倍，更适用于实际部署。

作者在实验中使用的工具是 Ares（一个开源的 DNN 容错注入工具），并在原有基础上做了增强：

核心观点：权重的**存储格式（如补码 vs 符号-幅度）**决定了在发生bit-flip时，值变化的严重程度。
在二进制补码（Two’s Complement）中，符号位（最高位）代表正负号。如果这个位发生翻转，会造成数值从正最大跳变为负最大，对神经网络权重的数值影响极大。
举例来说，CiFar10-VGG12 中，99.9999%以上的权重值在 -1.5 ~ +1.5之间。一旦符号位出错，原本接近0的小数值会突变成一个非常大的负数或正数——导致计算结果失真。

在所有模型中，红色柱子都最低，说明补码编码下容错性最差。

绿色柱子（SM编码）多数情况下和蓝色（理想保护）接近，说明SM 在不额外硬件代价的情况下，几乎达到了理想符号位保护的容错效果。

ResNet50、CiFar10-VGG 差距尤为明显，SM编码使容错性提高达 10 倍。

使用Ares工具对六种基准模型（MNIST FC/LeNet5, ImageNet VGG16/ResNet50, CiFar10 VGG12, TIDIGITS GRU）进行模拟实验。
方法是：
- 对量化后的权重在 [10⁻⁹, 10⁻³] 范围内注入bit-flip。
- 每个bit error rate（BER）运行20次，记录平均的推理误差。
- 找到误差上升不超过0.5%时可容忍的最大BER，作为容错能力的衡量指标。
结果：
- 如果只保护权重的符号位（理想情况），DNN的容错能力提升了接近一个数量级（10x）（见图1中蓝色柱状）。

对所有六个模型再次测试，只是将编码方式换成 SM：
- 对于 CiFar10-VGG、ImageNet ResNet50、TiDigits GRU，SM 编码下的容错性与 Oracle sign protection 几乎一致。
- 对于 MNIST FC、LeNet5、ImageNet VGG16，SM 容忍BER略低一些，但仍在 Oracle 的80%以上。
因此结论是：
- 使用SM编码几乎可以等效于特殊保护符号位，且不需要额外的硬件代价（如使用冗余存储技术保护符号位）。
- 同时它和2C一样使用同样位宽，不会引入额外存储开销，是一种设计性价比极高的容错增强方案。

内容	对应结论
问题	DNN权重的符号位极易受bit-flip影响，在2C编码下尤其严重
方案	用SM替代2C，无需额外硬件即可“等效保护符号位”
效果	容错能力可提升至原来的10倍，且误差随BER变化更加平滑
意义	适用于边缘计算、自适应部署等对可靠性敏感的实际场景