当前位置：首页 > news >正文

大模型技术解析与应用 | 大语言模型：从理论到实践（第2版）| 复旦大学 | 533页

news 来源：原创 2025/4/21 8:31:45

大家好，我是吾鳴。

今天要给大家分享一本由复旦大学出品的LLM书籍，书籍名称叫做《大语言模型：从理论到实践（第2版）》。一本关于大模型技术解析与应用的奇书，本书一共533页，如果你对大模型感兴趣，记得收藏。

基础理论
涵盖大语言模型的核心理论，包括Transformer架构（嵌入层、注意力机制、前馈网络）、生成式预训练语言模型（如GPT系列）的原理，以及混合专家模型（MoE）的优化策略。重点解析LLaMA模型的改进结构，如RMSNorm、SwiGLU激活函数和旋转位置编码（RoPE）。

预训练
围绕海量数据处理与分布式训练展开，包含数据来源（网页、书籍、代码等）、清洗策略（去重、隐私过滤）、词元切分技术（BPE、WordPiece），以及DeepSpeed框架下的分布式训练实践。强调数据规模、质量与多样性对模型性能的影响。

指令理解
探讨如何通过有监督微调（SFT）和强化学习（RL）使模型理解人类指令，包括指令数据构建、LoRA高效微调、PPO算法优化，并结合DeepSpeed-Chat框架实践。分析指令微调如何提升模型任务泛化能力。

大模型增强
包含多模态大模型（视觉/语音融合架构、MiniGPT-4实践）、大模型智能体（感知-规划-记忆模块、LangChain工具链）和检索增强生成（RAG系统设计与评估），探索模型在复杂场景下的扩展应用。

大模型应用
聚焦模型优化与落地，涵盖模型量化、稀疏化、知识蒸馏等效率优化技术，伦理安全评估体系（知识、伦理、垂直领域），以及典型应用开发案例（内容生成、代码助手、企业决策支持）。

下载地址：https://kdocs.cn/l/ci1DfElGCPoS

springboot自动装配的原理

修改PointLIO项目

RHCSA知识点

2025-4-19 情绪周期视角复盘（mini）

Linux命令--将控制台的输入写入文件

位运算---总结

微信小程序上传腾讯云

Dubbo QoS操作手册

【网工第6版】第4章无线通信网

分布式入门

Tailwindcss 入门 v4.1

opencv图像库编程

CFS 的调度类型：普通调度 vs 组调度