当前位置: 首页 > news >正文

MYDB仿MySQL手写数据库项目总结

声明:该项目是一个开源项目,我是在学习该项目,该项目的github地址如下: 

MYDB项目地址:https://github.com/CN-GuoZiyang/MYDB 

MYDB项目采用C/S结构,支持启动一个服务器,并有多个客户端去连接,通过socket通信。

不算解析器的话,该项目分为五个模块:

transaction manager(TM):通过维护XID文件来维护事务的状态,并提供接口供其他模块来查询事务的状态。

data manager(DM):管理数据库的DB文件和日志文件。

version manager(VM):基于两段锁协议实现调度序列的可串行化,并实现MVCC以消除读写阻塞,实现两种隔离级别。

index manager(IM):实现B+树索引。

Table manager(TBM):实现对字段和表的管理,同时解析SQL语句,并根据语句操作表。

项目亮点:

一、基于Java NIO实现数据页的读写管理模块,数据访问效率比第一版的传统I/O快三倍

 

NIO 是 Java SE 1.4 引入的一组新的 I/O 相关的 API,它提供了非阻塞式 I/O、选择器、通道、缓冲区等新的概念和机制。相比与传统的 I/O 多出的 N 不是单纯的 New,更多的是代表了 Non-blocking 非阻塞,NIO具有更高的并发性、可扩展性以及更少的资源消耗等优点。

 

NIO是同步非阻塞的,服务器实现模式为 一个线程处理多个连接。服务端只会创建一个线程负责管理Selector(多路复用器),Selector(多路复用器)不断的轮询注册其上的Channel(通道)中的 I/O 事件,并将监听到的事件进行相应的处理。每个客户端与服务端建立连接时会创建一个 SocketChannel 通道,通过 SocketChannel 进行数据交互。

详细认识NIO可以看一下另一个博主写的一篇博客很详细:Java NIO 详解-CSDN博客

 二、设计日志模块,采用WAL机制操作日志,支持数据库宕机后数据恢复

什么是WAL机制?

WAL(Write-Ahead Logging,预写式日志) 是一种用于保证数据库事务持久性(Durability)原子性(Atomicity)的核心机制。其核心思想是:在修改数据之前,先将修改操作记录到日志中,再将数据写入磁盘。即使系统崩溃,也能通过日志恢复未完成的操作。

 WAL的核心流程

  1. 事务提交时

    • 将事务的修改操作(如插入、更新、删除)按顺序追加写入日志文件(WAL文件)。

    • 日志写入成功后,事务才被视为已提交

  2. 数据写入磁盘

    • 实际的数据文件(如数据库表文件)的修改可以异步完成,无需立即写入。

  3. 崩溃恢复

    • 系统重启后,通过重放(Replay)日志文件,将未落盘的操作重新应用到数据文件中,确保数据一致性。

 数据恢复:

因为MYDB要实现多线程下的工作方式:

所以为了确保数据恢复时能够正确恢复,我们要限制数据库的操作,有以下两种规定:

规定1:正在进行的事务,不会读取其他任何未提交事务产生的数据。

规定2:正在进行的事务,不会修改其他任何未提交的事务修改或产生的数据。

这样数据库崩溃时恢复数据就很简单了:

1.重做所有崩溃时已经完成(已经提交或需要回滚)的事务。

2.撤销所有崩溃时未完成(未提交的)的事务。

redo:

  1. 正序扫描事务 T 的所有日志

  2. 如果日志是插入操作 (Ti, I, A, x),就将 x 重新插入 A 位置

  3. 如果日志是更新操作 (Ti, U, A, oldx, newx),就将 A 位置的值设置为 newx

undo:

  1. 倒序扫描事务 T 的所有日志

  2. 如果日志是插入操作 (Ti, I, A, x),就将 A 位置的数据删除

  3. 如果日志是更新操作 (Ti, U, A, oldx, newx),就将 A 位置的值设置为 oldx

三、实现事务管理以及MVCC并发控制,基于两阶段锁协议(2PL)确保事务串行化,支持读已提交、可重复读两种隔离机制

在VM模块,VM向上层模块提供记录作为最小操作单元,即Entry,结构为三部分:XMIN(创建该Entry的事务ID)、XMAX(删除该Entry的事务ID)、data(数据)。

什么是MVCC并发控制?

MVCC是多版本并发控制,简单来说就是为每一条记录都创建多个版本,用来实现可以在不加锁的情况下读写无阻塞,根据相关规则读取某个版本的数据。

两阶段锁协议(2PL)

当一个事务对一个记录正在操作时,即已经上锁了,若另一个事务也想操作该数据,只能进入阻塞状态直到当前事务释放锁。 

读已提交和可重复读可以去看我之前写的一篇博客:MySQL的事务原理及MVCC-CSDN博客

四、基于B+树构建索引结构,在 6 万条记录下索引查询耗时由原生遍历的 120ms 降至 1ms 

对B+树结构索引不熟悉的可以看我写过的一篇博客:MySQL中的索引_innodb引擎默认索引-CSDN博客

五、构建表结构管理器,支持字段结构定义与 SQL 语句解析执行,支持多条件组合查询、插入、更 新等基本 SQL 语义操作 

SQL解析是通过里面一个分割相关的类把SQL语句分割成不同的部分,比如关键字、字母下划线、字符串等等,然后通过praser解析类先来判断第一个部分的关键字,比如select、insert等等,然后把同一类的SQL交给不同的方法解析。

六、实现死锁检测机制,及时中止死锁事务,防止系统进入长时间等待状态 

因为有两阶段锁协议(2PL),当一个事务对一个资源上锁之后,其他事务只能阻塞等待,而这样有死锁的可能,在项目中,我们把事务Ti等待事务Tj解锁抽象为一条有向边,即Ti->Tj,这样多条有向边就组成图,我们通过检查这个图是否是循环的,就可以来检查是否有死锁。

我们可以通过dfs来遍历图

思路:维护一个 xidStamp 哈希表,记录每个事务的时间戳。时间戳初始为1,每开启一轮新检测就自增。 对每个持有资源的事务(xid),如果未被当前轮次检测过(时间戳为空或旧值),则用新的时间戳发起DFS检查。如果DFS过程中遇到已被标记为当前时间戳的事务,说明形成了循环链,立即返回死锁。如果事务未等待任何资源(waitU中无记录),说明路径安全;如果所有事务遍历完均无环路,则系统无死锁。

如果我的内容对你有帮助,请点赞,评论,收藏。创作不易,大家的支持就是我坚持下去的动力!

相关文章:

  • 【Maven】项目管理工具
  • 深度学习-全连接神经网络-2
  • Rust: 从内存地址信息看内存布局
  • 问题 | RAIM + LSTM 你怎么看???
  • Day5-UFS总结
  • WPS科大讯飞定制版 11.4.1.5| 无广告,省电和降低占用,可与普通版本共存
  • stm32week12
  • 如何在量子计算时代保障 Sui 的安全性
  • (14)VTK C++开发示例 --- 将点投影到平面上
  • 中通 Redis 集群从 VM 迁移至 PVE:技术差异、PVE 优劣势及应用场景深度解析
  • 【GIT】为什么要变基下拉,变基下拉失败,提示没有暂存如何解决?
  • 使用QEMU(8.2.10)调试ARM64 Linux内核6.6.30
  • 【STM32单片机】#10.5 串口数据包
  • 50道SQL经典练习题
  • 如何通过API获取淘宝评论?实战讲解
  • JVM面试题学习
  • JumpServer多用户VNC桌面配置指南:实现多端口远程访问
  • 互联网大厂Java面试:Spring Cloud与微服务的奇妙之旅
  • Canvas教程002—canvas上下文对象与浏览器支持
  • 字符串拼接问题的最佳解决方案
  • 新片|真人版《星际宝贝史迪奇》5月23日与北美同步上映
  • 尹锡悦涉嫌发动内乱案第二次庭审举行
  • “HPV男女共防计划”北半马主题活动新闻发布会在京举办
  • 江西省人大教育科学文化卫生委员会主任委员王水平被查
  • 深一度|奥运一年后丢冠不稀奇,但究竟谁来扛起男乒的大旗
  • “棉花糖爸爸”陈生梨:女儿将落户到贵州纳雍