大模型技术解析与应用 | 大语言模型:从理论到实践(第2版)| 复旦大学 | 533页
大家好,我是吾鳴。
今天要给大家分享一本由复旦大学出品的LLM书籍,书籍名称叫做《大语言模型:从理论到实践(第2版)》。一本关于大模型技术解析与应用的奇书,本书一共533页,如果你对大模型感兴趣,记得收藏。
内容摘要
基础理论
涵盖大语言模型的核心理论,包括Transformer架构(嵌入层、注意力机制、前馈网络)、生成式预训练语言模型(如GPT系列)的原理,以及混合专家模型(MoE)的优化策略。重点解析LLaMA模型的改进结构,如RMSNorm、SwiGLU激活函数和旋转位置编码(RoPE)。
预训练
围绕海量数据处理与分布式训练展开,包含数据来源(网页、书籍、代码等)、清洗策略(去重、隐私过滤)、词元切分技术(BPE、WordPiece),以及DeepSpeed框架下的分布式训练实践。强调数据规模、质量与多样性对模型性能的影响。
指令理解
探讨如何通过有监督微调(SFT)和强化学习(RL)使模型理解人类指令,包括指令数据构建、LoRA高效微调、PPO算法优化,并结合DeepSpeed-Chat框架实践。分析指令微调如何提升模型任务泛化能力。
大模型增强
包含多模态大模型(视觉/语音融合架构、MiniGPT-4实践)、大模型智能体(感知-规划-记忆模块、LangChain工具链)和检索增强生成(RAG系统设计与评估),探索模型在复杂场景下的扩展应用。
大模型应用
聚焦模型优化与落地,涵盖模型量化、稀疏化、知识蒸馏等效率优化技术,伦理安全评估体系(知识、伦理、垂直领域),以及典型应用开发案例(内容生成、代码助手、企业决策支持)。
精彩内容
下载地址:https://kdocs.cn/l/ci1DfElGCPoS