当前位置：首页 > news >正文

架构-系统可靠性分析与设计

news 来源：原创 2025/4/25 6:35:50

可靠性：软件系统在遇到错误、意外操作或系统故障时，仍能维持自身功能特性的能力。
举例：手机银行APP在用户误操作（如快速点击多次转账）时，仍能正确处理交易并避免重复扣款，体现了可靠性。
可用性：系统正常运行的时间比例，即“能用的时间占总时间的多少”。
举例：某云服务器全年停机维护10小时，可用性约为（8760-10）/8760≈99.89%。

对比维度	软件	硬件
失效原因	逻辑错误（如代码漏洞）	物理退化（如元件老化、磨损）
复杂性	高（代码逻辑复杂，易隐藏缺陷）	较低（物理结构相对固定）
唯一性	同一版本完全一致（复制无差异）	个体差异（如两个电阻参数可能不同）
版本更新周期	快（可通过补丁快速修复）	慢（需更换硬件，周期长）
举例：手机电池（硬件）随使用时间变长续航下降（物理退化），而手机系统（软件）可通过更新修复漏洞，不会“老化”至。

平均无故障时间（MTTF）：系统从开始运行到首次故障的平均时间，公式：MTTF = 1/λ（λ为失效率）。
举例：某软件每1000小时发生1次故障，MTTF=1000小时。
平均故障修复时间（MTTR）：修复一次故障的平均时间，公式：MTTR = 1/μ（μ为修复率）。
举例：服务器硬盘故障后，平均2小时修复，MTTR=2小时。
平均故障间隔时间（MTBF）：两次故障之间的平均时间，公式：MTBF = MTTF + MTTR。
实际中，因MTTR通常很小，可近似认为MTBF ≈ MTTF（如服务器快速热修复）。
系统可用性：公式：可用性 = MTTF / (MTTF + MTTR) × 100%。
举例：MTTF=1000小时，MTTR=1小时，可用性≈99.9%。

串联系统（“一损俱损”）：整体可靠性是各部件可靠性的乘积，即
R = R₁ × R₂ × … × Rₙ，失效率近似为各部件失效率之和（λ ≈ λ₁ + λ₂ + … + λₙ）。
举例：电路中两个元件串联，可靠性分别为0.9和0.8，整体可靠性=0.9×0.8=0.72。
并联系统（“冗余备份”）：整体可靠性=1 - （1-R₁）×（1-R₂）×…×（1-Rₙ），即“所有部件都失效时系统才失效”。
举例：两个硬盘并联备份，可靠性均为0.9，整体可靠性=1 - (1-0.9)×(1-0.9)=0.99。

文档列举了10类模型，可能涉及以下几种：

开发方法（如敏捷开发 vs 瀑布模型，前者迭代快但可能引入更多缺陷）、运行环境（如高温下硬件故障率升高，间接影响软件）、软件规模（代码量越大，缺陷概率越高）等至。

避错技术：从源头减少错误（如严格代码审查、使用静态类型语言Java/C#）。
检错技术：检测运行时错误（如输入校验，防止恶意数据导致崩溃）。
容错技术（通过冗余实现“错误容忍”，重点！）：
- N版本程序设计（静态冗余）：开发多个功能相同但实现不同的版本，并行运行后通过“表决器”输出结果（多数同意原则）。
  举例：自动驾驶系统同时运行3个不同团队开发的路径规划算法，表决结果更可靠。
- 恢复块设计（动态冗余）：主模块失败后，自动切换到后备模块（类似“主备切换”）。
  举例：手机导航APP主服务器崩溃后，自动切换到备用服务器继续提供服务。
- 防卫式程序设计：在代码中嵌入错误检测和恢复代码，如try-catch块，发现错误后回退到已知正确状态（后向恢复）。
  举例：银行转账时，若网络中断，自动撤销交易并提示用户重新操作。
- 双机容错模式（硬件层面冗余）：
  - 热备模式：一台主服务器运行，另一台待机，主服务器故障时快速切换（如银行核心系统）。
  - 互备模式：两台服务器各自承担不同服务，互为备份（如Web服务器和数据库服务器互备）。
  - 双工模式：两台服务器同时工作，结果实时同步（如高并发电商平台的集群架构）至。

基本概念：
- 可靠性、可用性的定义及区别。
- 软件与硬件可靠性的4点差异（复杂性、物理退化、唯一性、版本更新）至。
可靠性指标：
- MTTF、MTTR、MTBF的定义及公式至。
- 可用性计算。
- 串联/并联系统可靠性公式。
可靠性设计技术：
- N版本程序设计（静态冗余，表决器）、恢复块设计（动态冗余，主备切换）。
- 前向恢复与后向恢复的区别。
- 双机容错的三种模式（热备、互备、双工）至。