当前位置: 首页 > news >正文

MVCC介绍

MVCC(多版本并发控制)详解

MVCC(Multi-Version Concurrency Control) 是一种数据库并发控制技术,核心思想是通过维护数据的多个版本来实现读写操作的无锁并发,从而在高并发场景下提升性能。它广泛用于 MySQL(InnoDB)、PostgreSQL 等数据库,尤其在 READ_COMMITTEDREPEATABLE_READ 隔离级别下解决脏读、不可重复读和幻读问题。


一、为什么需要 MVCC?

传统锁机制(如行锁、表锁)的缺陷:

  1. 读写冲突:读操作会阻塞写操作,写操作也会阻塞读操作,降低并发性能。

  2. 锁管理复杂:需要处理死锁、锁升级等问题。

MVCC 的优势

  • 读操作不阻塞写操作,写操作也不阻塞读操作。

  • 天然支持非阻塞的“快照读”(Snapshot Read),实现事务隔离。


二、MVCC 核心思想

  1. 数据多版本
    同一行数据在不同时间点存在多个版本,每个版本关联一个事务 ID(或时间戳)。

  2. 快照读
    事务读取数据时,基于当前事务的“可见性规则”选择一个合适的数据版本,而非直接读取最新数据。

  3. 版本链
    每个数据行通过隐藏字段(如 DB_TRX_IDDB_ROLL_PTR)链接到旧版本数据,形成版本链。


三、MVCC 实现原理

MySQL InnoDB 为例,详细说明 MVCC 的机制:

1. 关键隐藏字段

InnoDB 每行数据包含两个隐藏字段:

  • DB_TRX_ID:最近修改该行数据的事务 ID。

  • DB_ROLL_PTR:指向 Undo Log 中旧版本数据的指针,形成版本链。

2. Undo Log(回滚日志)
  • 存储数据的历史版本,用于构建版本链。

  • 事务回滚时,通过 Undo Log 恢复数据到旧版本。

3. Read View(读视图)

事务在读取数据时生成一个 Read View,用于判断数据版本是否可见。
Read View 包含以下关键信息:

  • trx_ids:当前活跃(未提交)的事务 ID 列表。

  • min_trx_idtrx_ids 中的最小事务 ID。

  • max_trx_id:当前系统已分配的最大事务 ID +1。

  • creator_trx_id:创建该 Read View 的事务 ID。

4. 可见性判断规则

事务读取数据时,根据 Read View数据版本的 DB_TRX_ID 判断是否可见:

  1. 如果数据版本的 DB_TRX_ID < min_trx_id:该版本对当前事务可见。

  2. 如果数据版本的 DB_TRX_ID > max_trx_id:该版本对当前事务不可见。

  3. 如果 min_trx_id ≤ DB_TRX_ID < max_trx_id

    • DB_TRX_IDtrx_ids 列表中,说明该版本由未提交的事务修改,不可见。

    • 否则,可见。

  4. 如果 DB_TRX_ID = creator_trx_id:该版本由当前事务自身修改,可见。

5. 不同隔离级别的实现差异
  • READ_COMMITTED:每次读取数据时生成新的 Read View(看到已提交的最新数据)。

  • REPEATABLE_READ:在事务第一次读取数据时生成 Read View,后续复用该视图(保证多次读取结果一致)。


四、MVCC 如何解决并发问题

问题解决机制
脏读通过 Read View 过滤未提交事务的修改,只读取已提交的数据版本。
不可重复读REPEATABLE_READ 下,事务复用同一个 Read View,确保多次读取同一数据版本。
幻读MySQL 的 REPEATABLE_READ 通过 MVCC + 间隙锁(Gap Lock)共同解决。

五、MVCC 的优缺点

优点
  • 高并发:读写操作互不阻塞。

  • 一致性快照:提供稳定的数据视图,支持事务隔离。

  • 避免锁竞争:减少死锁概率。

缺点
  • 存储开销:需维护多个数据版本,占用额外空间。

  • 历史版本清理:需要定期清理 Undo Log 中的旧版本(通过 Purge 线程)。


六、MVCC 在 PostgreSQL 中的差异

PostgreSQL 的 MVCC 实现与 MySQL 不同:

  • 无 Undo Log:直接通过表的多版本存储实现,每个修改生成新版本,旧版本由 Vacuum 进程清理。

  • 事务 ID 回卷问题:事务 ID 是 32 位,存在循环使用问题,需定期维护。


七、实际案例

场景:事务 A 读取数据,事务 B 修改数据
  1. 事务 A(ID=100)开启,读取某行数据,生成 Read View。

  2. 事务 B(ID=200)修改该行数据并提交,生成新版本(DB_TRX_ID=200)。

  3. 事务 A 再次读取时:

    • READ_COMMITTED:生成新 Read View,看到 DB_TRX_ID=200 的版本。

    • REPEATABLE_READ:复用旧 Read View,仍看到旧版本。


总结

MVCC 通过多版本数据、Read View 和 Undo Log 的协同工作,实现了高效的并发控制。它是现代数据库高并发能力的基石,理解其原理对优化事务设计和排查并发问题至关重要。

相关文章:

  • NEAT 算法解决 Lunar Lander 问题:从理论到实践
  • 计算机组成原理知识点汇总(四)输入输出系统
  • 计算机是如何看待数据的?
  • 【C++详解】C++入门(一)命名空间、缺省参数、函数重载
  • dubbo SPI插件扩展点使用
  • Python变量全解析:从基础到高级的命名规则与数据类型指南
  • 一招破敌,掌控 React 渲染术:createRoot 与 root.render
  • 信创时代编程开发语言选择指南:国产替代背景下的技术路径与实践建议
  • Java学习手册:Filter 和 Listener
  • SSM--AOP 日志
  • 2025/4/20 实验作业 linux系统权限相关实验
  • 股票分析技术指标【MACD】
  • 集合框架(重点)
  • ThreadLocal - 原理与应用场景详解
  • 解决IDEA创建SpringBoot项目没有Java版本8
  • 冠珠瓷砖X2025佛山潭洲陶瓷展主题论坛·AI+未来专场精彩回顾
  • javase 学习
  • Linux驱动开发--异步通知与异步I/O
  • Linux——SSH
  • Transformer系列(二):自注意力机制框架
  • 日中友好议员联盟代表团访问中国人民对外友好协会
  • 科学时代重读“老子”的意义——对谈《老子智慧八十一讲》
  • 原创话剧风向标!这个展演上《大宅门》《白鹿原》先后上演
  • 可实时追踪血液中单个细胞的穿戴医疗设备问世
  • 龚正会见巴基斯坦卡拉奇市市长穆尔塔扎·瓦哈卜、巴西圣保罗市市长里卡多·努内斯
  • 调查丨当节气出现“时差”,陕西的果农们经历着什么?