当前位置: 首页 > news >正文

大模型技术解析与应用 | 大语言模型:从理论到实践(第2版)| 复旦大学 | 533页

大家好,我是吾鳴。

 

今天要给大家分享一本由复旦大学出品的LLM书籍,书籍名称叫做《大语言模型:从理论到实践(第2版)》。一本关于大模型技术解析与应用的奇书,本书一共533页,如果你对大模型感兴趣,记得收藏。

 

内容摘要

基础理论
涵盖大语言模型的核心理论,包括Transformer架构(嵌入层、注意力机制、前馈网络)、生成式预训练语言模型(如GPT系列)的原理,以及混合专家模型(MoE)的优化策略。重点解析LLaMA模型的改进结构,如RMSNorm、SwiGLU激活函数和旋转位置编码(RoPE)。

预训练
围绕海量数据处理与分布式训练展开,包含数据来源(网页、书籍、代码等)、清洗策略(去重、隐私过滤)、词元切分技术(BPE、WordPiece),以及DeepSpeed框架下的分布式训练实践。强调数据规模、质量与多样性对模型性能的影响。

指令理解
探讨如何通过有监督微调(SFT)和强化学习(RL)使模型理解人类指令,包括指令数据构建、LoRA高效微调、PPO算法优化,并结合DeepSpeed-Chat框架实践。分析指令微调如何提升模型任务泛化能力。

大模型增强
包含多模态大模型(视觉/语音融合架构、MiniGPT-4实践)、大模型智能体(感知-规划-记忆模块、LangChain工具链)和检索增强生成(RAG系统设计与评估),探索模型在复杂场景下的扩展应用。

大模型应用
聚焦模型优化与落地,涵盖模型量化、稀疏化、知识蒸馏等效率优化技术,伦理安全评估体系(知识、伦理、垂直领域),以及典型应用开发案例(内容生成、代码助手、企业决策支持)。

精彩内容

 

 

 

 

 

 

 

 

 

下载地址:https://kdocs.cn/l/ci1DfElGCPoS

 

相关文章:

  • 深度学习方向急出成果,是先广泛调研还是边做实验边优化?
  • springboot自动装配的原理
  • 修改PointLIO项目
  • RHCSA知识点
  • 2025-4-19 情绪周期视角复盘(mini)
  • Linux命令--将控制台的输入写入文件
  • C语言之高校学生信息快速查询系统的实现
  • RocketMQ实现基于可靠消息的最终一致性
  • electron打包是没有正确生成electron.exe,x ENOENT: no such file or directory, rename:
  • 位运算---总结
  • 微信小程序上传腾讯云
  • Dubbo QoS操作手册
  • 【网工第6版】第4章 无线通信网
  • 肖特基二极管详解:原理、作用、应用与选型要点
  • 分布式入门
  • Tailwindcss 入门 v4.1
  • AI大模型发展现状与MCP协议诞生的技术演进
  • Java处理字符串用啥?String、StringBuilder、StringBuffer
  • opencv图像库编程
  • CFS 的调度类型:普通调度 vs 组调度
  • 印度空军计划增购40架法制“阵风”战机,此前已购买36架
  • 多地市场监管部门公开征集居民水电气计量不准确、收费不规范问题线索
  • 上海地铁5G信号全覆盖后网速如何?记者亲测有这些发现
  • 上海地铁18号线二期长轨贯通,预计今年年底开通初期运营
  • 工作坊|早期左翼文学的多重张力与历史回响
  • 又有多名券商员工考公转型,近两年证券从业人员数量减逾7%