“生成式AI大模型、多模态技术开发与应用”学习
2024年政府工作报告将“发展新质生产力”置于年度十大工作任务之首,标志着我国产业升级进入全新战略阶段。这种以创新为主导的先进生产力形态,正通过技术革命性突破与生产要素创新性配置,重构现代社会的生产范式与运行机制,为企业开辟出高质量发展的创新路径。
在数字化转型加速的进程中,人工智能作为新质生产力的核心驱动力,展现出强大的技术引领效应。自2022年生成式大语言模型ChatGPT引发全球AI热潮以来,技术迭代持续突破:2024年OpenAI发布视频生成多模态大模型Sora,突破二维内容生成局限;2025年深度求索推出的推理大模型DeepSeek,则标志着人工智能向复杂决策领域迈进。这三个里程碑式创新完整勾勒出AI技术从内容生成、多模态融合到逻辑推理的演进路径,构成了驱动企业数字化转型的技术三角。
当前,人工智能技术体系已形成包含生成技术、多模态感知、深度推理的完整能力矩阵,正在重塑企业的研发设计、生产制造、营销服务全价值链。这种技术演进不仅推动着传统产业智能化改造,更催生出一批新兴产业形态,成为全球科技竞争的战略制高点和产学研各界关注的焦点领域。
为积极响应科研及工程技术人员需求,落实人工智能战略部署,加快培养数字技术人才,将举办新质技术之第十三期“生成式AI大模型、多模态技术开发与应用学习”。本次采用理论+实战模式。
一、时间安排:
2025年6月5日 — 2025年6月9日 重庆(同时转线上直播)
二、参会对象:
各省市、自治区从事人工智能、自然语言处理、图像处理、视频处理、数据挖掘、无人机、无人车、无人艇、智慧城市、智慧医疗、智能装备、目标识别、轨迹规划、智慧交通等领域相关研究的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及生成式AI、大模型研究感兴趣的广大爱好者。
三、专家:
北京理工大学教授,国家自然基金委项目函审专家、国家重点研发计划评审专家、科技部项目评审专家、北京市自然科学基金/重点基金评审专家、博士点基金/博士后基金评审专家,国际期刊NLPR主编,以及其它期刊编委。目前主要从事自然语言处理、机器学习、模式识别、生成式AI、大模型、多模态方面研究。
四、学习目标:
模块一:基础理论与技术演进
1.系统梳理AIGC技术发展脉络,深入理解生成式AI的技术演进路径与产业应用现状
2.构建Transformer架构知识体系,掌握自注意力机制、位置编码等核心模块的数学原理与工程实现
3.解析大模型技术生态,掌握GPT/BERT等经典架构的演进规律与创新突破点
模块二:核心技术与工程实践
4.精通向量数据库技术栈,掌握HNSW、PQ等核心检索算法,熟练应用Milvus/Pinecone等主流工具
5.深度剖析扩散模型机理,掌握DDPM、Score-based等数学基础及Stable Diffusion工程实践
6.构建大模型全栈能力:从API接口工程到LoRA/QLoRA参数高效微调技术
7.开发智能体系统:掌握ReAct、AutoGPT等范式,构建多模态感知-决策-执行技术链
8.掌握微调方法:Prompt、RAG、LORA、知识蒸馏
9.掌握多头注意力机制MLA、稀疏注意力机制NSA
模块三:前沿应用与系统优化
10.实现跨模态生成突破:掌握文图生成、音视频合成、3D内容创建技术方案
11.优化注意力计算体系:理解多头注意力变体与稀疏注意力加速技术
12.构建AIGC全流程安全体系:从提示词工程到内容安全过滤的标准实施路径
五、课程安排
课程大纲
引入:大模型通义千问、智谱、百川、DeepSeek等的使用
第一天
上午
9:00-12:00
下午14:00-17:00
第一章
生成式AI技术发展概述
一、AI:从判别决策到创造生成
1.从经典机器学习到深度学习
2.从Transformer到生成模型
二、AIGC技术及进展
1.AIGC的定义和发展 2.AIGC技术的分类
3.AIGC技术框架
三、生成式人工智能模型
1.生成对抗网络GAN
2.可变分自编码器VAE
3.自回归模型Auto-regressive Model
4.扩散模型Diffusion Model
四、大模型
1.从ChatGPT到Sora的技术演进
2.大语言模型
3.视觉大模型
4.多模态大模型
第二章 AIGC技术在多模态领域的应用
一、AIGC在自然语言处理领域的应用
1.语义理解
2.内容生成
a公文辅助写作 b政策分析 c研报生成 d风控舆情
3.多轮会话 4.逻辑推理
二、AIGC在视频领域的应用
1.图像识别、检测与生成 2.视频理解与生成
3.3D生成
三、AIGC在视觉与音频生成领域的应用
1.图像生成 2.电影配音
3.智能客服 4.各类场景语音生成
四、大模型实操
1.大模型的硬件配置
2.大模型的安装
3.大模型的使用:通义千问、智谱、百川、DeepSeek
4.大模型数据集的构建
第二天
上午
9:00-12:00
下午14:00-17:00
第三章 Transformer
一、Transformer模型的基本架构
二、Self-Attention机制的原理与计算过程
三、Multi-Head Attention 的设计与作用
分析DeepSeek的Multi-Head Lattern Attention
四、Positional Encoding的实现方法
五、Rotary Positional Embedding
六、Transformer中的Feed-Forward Networks
分析DeepSeek的MoE
七、Layer Normalization的原理
八、Transformer模型中的残差连接
九、Teacher Forcing技术
十、编码器与解码器的结构差异
十一、视觉Transformer
第四章
AIGC技术
一、大语言模型技术原理
1.生成模型(扩散模型) 2.深度学习常用算法
3.人类反馈强化学习RLHF 4.典型大语言模型
二、提示工程
1.提示词的基础知识 2.思维链
3.提示词实操:明确具体任务、利用上下文、使用不同的语气、角色扮演、zero shot, one shot, few shot、零样本思维链提示、生成知识提示
三、AIGC的安全
1.内容安全 2.模型安全
3.用户信息安全
四、AIGC技术评价
1.AIGC标准体系 2.AIGC应用层标准
3.AICG模型层标准
第五章
大语言模型微调与量化
一、模型微调
1.全量微调FFT 2.部分参数微调PEFT
3.Prompt微调 4.Prefix微调
5.LoRA等微调方法 6.大语言模型微调开发
二、模型压缩量化
1.知识蒸馏 2.线性量化
3.非线性量化 4.饱合量化
5.非饱合量化 6.大语言模型微调量化开发
三、实例开发
1.大语言模型微调框架
2.大语言模型微调量化实例
分析垂类大模型的构建模式
第三天
上午
9:00-12:00
下午14:00-17:00
第六章 AIGC技术的记忆模块(向量数据库)
一、向量数据库概述
1.AIGC技术的记忆模块的功能和作用
2.向量数据库的功能与发展历程
3.各种向量数据库的对比
4.向量数据库发展展望
二、向量数据库技术
1.向量数据库原理
2.向量检索算法
3.向量数据库实操
第七章 大语言模型 Agent
一、大语言模型开发框架
1.大语言模型开发框架的原理与工作流程
2.大语言模型开发框架的分层结构
3.大语言模型开发框架的模块与库函数
二、Agent
1.Agent工作原理
2.Agent模式
3.Agent开发步骤与工作流程
三、大语言模型Agent开发
1.大语言模型与Agent结合开发方式
2.大语言模型Agent开发实例
3.构建一个智能体
第四天
上午
9:00-12:00
下午14:00-17:00
第八章 扩散模型
一、前向扩散过程 二、反向生成过程
三、网络架构 四、参数化
五、采样方法 六、Stable Diffusion模型
七、Diffusion Transformer模型
第九章 CLIP
一、CLIP架构 二、对比预训练
三、数据集分类器创建 四、Zero-shot 推理
五、提示词工程与集成
第十章 VAE
一、Autoencoder
二、VAE模型原理
三、重参化
四、VAE与AE的区别
五、Spacetime Latent Representation
第十一章 Deepseek训练
一、Deepseek训练流程
二、patchify—视频数据转换为图像块
三、Scaling Transformer生成
四、Latent转换为视频向量
有意向者可s聊!