当前位置: 首页 > news >正文

【动手学大模型开发】什么是大语言模型

1.1 大型语言模型(LLM)的概念

大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型

LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。目前,国外的知名 LLM 有 GPT、LLaMA、Gemini、Claude 和 Grok 等,国内的有 DeepSeek、通义千问、豆包、Kimi、文心一言、GLM 等。

为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型,例如拥有 175B (1750 亿)参数的 GPT-3 和 540B(5400 亿)参数的 PaLM 。尽管这些大型语言模型与小型语言模型(例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。因此,科研界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。LLM 的一个杰出应用就是 ChatGPT ,它是 GPT 系列 LLM 用于与人类对话式应用的大胆尝试,展现出了非常流畅和自然的表现。

1.2 LLM 的发展历程

语言建模的研究可以追溯到20 世纪 90 年代,当时的研究主要集中在采用统计学习方法来预测词汇,通过分析前面的词汇来预测下一个词汇。但在理解复杂语言规则方面存在一定局限性。

随后,研究人员不断尝试改进,2003 年深度学习先驱 Bengio 在他的经典论文 《A Neural Probabilistic Language Model》中,首次将深度学习的思想融入到语言模型中。强大的神经网络模型,相当于为计算机提供了强大的"大脑"来理解语言,让模型可以更好地捕捉和理解语言中的复杂关系。

2018 年左右,Transformer 架构的神经网络模型开始崭露头角。通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样,对语言有了更深刻的理解,极大地提升了模型在各种自然语言处理任务上的表现。

与此同时,研究人员发现,随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,在各种任务中的表现均显著提升(Scaling Law)。这一发现标志着大型语言模型(LLM)时代的开启。

通常大模型由三个阶段构成:预训练、后训练和在线推理。在 2024 年 9 月之前,大模型领域仅存在预训练阶段的 Scaling Law。然而,随着 OpenAI o1 的推出,后训练和在线推理阶段也各自拥有了 Scaling Law,即后训练阶段的强化学习 Scaling Law(RL Scaling Law)和在线推理阶段的 Inference Scaling Law(Test Time Scaling Law)。  随着各阶段计算量的增加,大模型的性能不断增长。

Scaling Law

1.3 常见的 LLM 模型

大语言模型的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止 2024 年 6 月,国内外有超过百种大模型相继发布。

接下来我们主要介绍几个国内外常见的大模型(包括开源和闭源)

1.3.1 闭源 LLM (未公开源代码)
1.3.1.1 GPT 系列

OpenAI 模型介绍

OpenAI 公司在 2018 年 提出的 GPT(Generative Pre-Training) 模型是典型的 生成式预训练语言模型 之一。

GPT 模型的基本原则是通过语言建模将世界知识压缩到仅解码器 (decoder-only) 的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器。它能够成功的两个关键点:

  • 训练能够准确预测下一个单词的 decoder-only 的 Transformer 语言模型
  • 扩展语言模型的大小

OpenAI 在 LLM 上的研究大致可以分为以下几个阶段:

GPT 阶段

目前,GPT 系列已形成 知识型 与 推理型 两大技术分支。

1.3.1.1.1 ChatGPT

ChatGPT 使用地址

2022 年 11 月OpenAI 发布了基于 GPT 模型(GPT-3.5 和 GPT-4)的会话应用 ChatGPT。由于与人类交流的出色能力,ChatGPT 自发布以来就引发了人工智能社区的兴奋。ChatGPT 本质上是一个 LLM 应用,是基于基座模型开发出来的,与基座模型有本质的区别。ChatGPT 上线后用户增长迅速,5 天注册人数突破 100 万,两个月后月活用户破亿,成为当时史上用户增长最快的消费级应用程序。

ChatGPT 界面

随着不断迭代,ChatGPT 逐渐丰富了其功能:

  • 插件系统:允许开发者创建工具扩展 ChatGPT 的能力,实现网页浏览、数据分析和第三方服务调用
  • 实时语音和视频对话:用户可与 AI 进行自然的语音和视频交流,支持手势识别和情感表达
  • 多模态能力:能够分析和理解用户提供的图片、音频和视频,实现全面的多模态交互
  • 自定义指令与记忆功能:记住用户之前的交互习惯和偏好,提供个性化体验
  • GPT 构建器平台:允许用户无需编程创建专用的 AI 助手,支持自定义知识库和行为模式
  • 数据分析与可视化:直接处理和分析上传的数据文件,生成图表和可视化报告
  • 知识型与推理型双模式:可在 GPT-4.5 (知识型) 和 o1/o3 (推理型) 之间切换,满足不同场景需求
  • 思维链展示:在推理型模型中可选择性展示思考过程,帮助用户理解推理步骤
1.3.1.1.2 知识型模型 GPT-4.5, GPT-4o, GPT-4o mini
  • 2023 年 3 月 发布的 GPT-4 引入了多模态能力,相比 GPT-3.5 的 1750 亿参数,GPT-4 规模显著扩大(推测约 1.8 万亿参数),在解决复杂任务和评估任务上展现出较大的性能提升。
  • 2024 年 5 月 发布的 GPT-4o("o"代表"omni"全能)具备对文本、语音、图像三种模态的深度理解能力,主要特点包括:
    • 多模态融合:无缝理解和生成多种形式内容
    • 实时对话:响应速度比 GPT-4 快约 2 倍
    • 情感表达:在语音互动中传递更丰富的情感变化
    • 成本效益:API 定价降低约 50%
  • 2024 年 7 月 发布的 GPT-4o mini 是一款面向消费级应用的轻量级模型,价格更加亲民,适合日常对话和基础任务场景。
  • 2025 年 2 月 发布的 GPT-4.5 在知识广度、推理深度和创意表达方面有显著提升,特别强化了对客观事实的准确性,尤其是情商方便异常优秀。上下文长度扩展至 512K。是 OpenAI 的最后一个非思维链模型。

主流知识型模型对比:

模型名称上下文长度特点知识截止日期
GPT-416k经济,专门对话2021 年 9 月
GPT-4o128k多模态,速度快2023 年 10 月
GPT-4.5128k最强知识型,精准度高2023 年 10 月
GPT-4o mini128k轻量知识型,性价比高2023 年 10 月
1.3.1.1.3 推理型模型 o1, o1 mini 和 o3 mini
  • 2024 年 9 月 发布的 o1-minio1-preview 是专为复杂推理设计的模型,在回答前会先生成一段思维链(不公开),优先考虑精确性和推理步骤的正确性。
    • 超强推理能力:在数学、编程和逻辑推理等任务中表现卓越
    • 解题过程可靠:注重解题中间步骤的正确性
    • 问题分解能力:将复杂问题分解为可管理的子问题
    • 自纠错机制:识别错误并主动纠正
  • 2024 年 12 月 发布的 o1 比 o1-preview 可以在更快的时间内响应,思考的时间更短。
  • 2025 年 1 月 发布的 o3-mini 可以显示部分思维链,与 o1 相比,可以保持效果的情况下,响应速度更快。
模型名称上下文长度特点知识截止日期
o1128k强推理能力,慢2023 年 10 月
o1 mini200k轻量推理,中速2023 年 10 月
o3 mini200k超轻量推理,最快2023 年 10 月

OpenAI 的模型战略形成了"知识型"和"推理型"两条互补产品线:知识型模型专注于广泛知识覆盖和流畅对话体验,推理型模型专注于精确推理和复杂问题求解,让用户可根据具体需求选择最适合的模型类型。

1.3.1.2 Claude 系列

Claude 系列模型是由 OpenAI 离职人员创建的 Anthropic 公司开发的闭源语言大模型。

Claude 使用地址

  • 最早的 Claude 于 2023 年 3 月 15 日 发布。
  • 2024 年 3 月 4 日,更新至 Claude-3,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它们的能力依次递增,旨在满足不同用户和应用场景的需求。
  • 2024 年 10 月,Anthropic 发布了 Claude 3.5 Sonnet,这是一款在推理和通用任务上有显著提升的模型。
  • 2025 年 2 月,Anthropic 又进一步发布了 Claude 3.7 Sonnet (Preview),这是目前是首款混合推理模型,支持标准模式与推理思考模式,编码能力异常强大
模型名称上下文长度特点
Claude 3.5 Haiku200k速度最快
Claude 3.5 Sonnet200k推理能力增强
Claude 3.7 Sonnet200k最强性能,领先推理力
Claude 3 Opus200k性能强大,费用最高

Claude 界面

1.3.1.3 Gemini 系列

PaLM 系列语言大模型由 Google 开发。

  • 2022 年 4 月,发布了初始版本(PaLM 后更名为 Gemini)。
  • 2025 年 2 月,Google 发布了 Gemini 2.0 系列模型,在性能和效率上有显著提升。包括 Gemini 2.0 Pro、Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 是 Gemini 2.0 系列的三个版本,分别适用于不同的场景。同样,推出了其推理模型 Gemini 2.0 Flash Thinking
模型名称上下文长度特点
Gemini 2.0 Pro2M性能最强
Gemini 2.0 Flash1M低延迟,性能强
Gemini 2.0 Flash-Lite1M性价比最高
Gemini 2.0 Flash Thinking1M思维链展示

Gemini 使用地址

以下窗口是 Gemini 的界面:

Gemini 界面

1.3.1.4 文心一言

文心一言使用地址

文心一言是基于百度文心大模型的知识增强语言大模型,于 2023 年 3 月 在国内率先开启邀测。文心一言的基础模型文心大模型于 2019 年发布 1.0 版,现已更新到 4.0 版本。更进一步划分,文心大模型包括 NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。文心一言的中文能力相对来说非常不错。

文心一言网页版分为免费版专业版

  • 免费版使用文心 3.5 版本,已经能够满足个人用户或小型企业的大部分需求。
  • 专业版使用文心 4.0 版本,定价为 59.9 元/月,连续包月优惠价为 49.9 元/月。

同时也可以使用 API 进行调用(计费详情)。

以下是文心一言的使用界面:

文心一言界面

1.3.1.5 星火大模型

星火大模型使用地址

讯飞星火认知大模型科大讯飞发布的语言大模型,支持多种自然语言处理任务。

  • 2023 年 5 月,首次发布。

  • 2024年 10 月,讯飞星火发布模型 星火 4.0 Turbo

  • 2025 年 1 月,讯飞发布了推理思考模型讯飞星火 X1 和 星火语音同传模型

以下是讯飞星火的使用界面:

讯飞星火界面

1.3.2 开源 LLM
1.3.2.1 LLaMA 系列

LLaMA 官方地址

LLaMA 开源地址

LLaMA 系列模型是 Meta 开源的一组参数规模 从 8B 到 405B 的基础语言模型。

  • 2023 年 2 月,发布 LLaMA。
  • 2023 年 7 月,发布了 LLaMA2 模型。
  • 2024 年 4 月,发布了 LLaMA3 模型。
  • 2024 年 7 月,发布了 LLaMA 3.1 模型。
  • 2024 年 12 月,发布了 LLaMA 3.3 模型(只开源了 70B 的指令模型)。

它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的数据并行流水线并行技术,以加速模型的训练和扩展其中 405B 参数模型是首个公开的千亿级开源模型,性能对标 GPT-4o 等商业闭源模型。

与 GPT 系列相同,LLaMA 模型也采用了 decoder-only 架构,同时结合了一些前人工作的改进。LLaMA 系列基本上是后续大模型的标杆:

  • Pre-normalization 正则化:为了提高训练稳定性,LLaMA 对每个 Transformer 子层的输入进行了 RMSNorm 归一化,这种归一化方法可以避免梯度爆炸和消失的问题,提高模型的收敛速度和性能;
  • SwiGLU 激活函数:将 ReLU 非线性替换为 SwiGLU 激活函数,增加网络的表达能力和非线性,同时减少参数量和计算量;
  • 旋转位置编码(RoPE,Rotary Position Embedding):模型的输入不再使用位置编码,而是在网络的每一层添加了位置编码,RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息,并且具有更好的泛化能力。
  • 分组查询注意力(GQA,Grouped-Query Attention):通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率。

LLaMA 3.1 于 2024 年 7 月 发布,提高了模型的性能和效率:

  • 更多的训练数据量:LLaMA3.1 在 15 万亿个 token 的数据上进行预训练,采用了更科学的数据配比。LLaMA3.1 接触到更多的文本信息,从而提高了其理解和生成文本的能力。
  • 更长的上下文长度:LLaMA 3.1 将上下文长度大幅提升至 128K token,支持处理极长的文档和对话历史,改善了对长文本的理解和生成能力,适用于更复杂的应用场景。
  • 分组查询注意力(GQA,Grouped-Query Attention):通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率(LLaMA2 只有 70B 采用)。
  • 更大的词表:LLaMA3.1 采用了 128K 的 tokenizer,是前两代 32K 的 4 倍,这使得其语义编码能力得到了极大的增强,从而显著提升了模型的性能。
  • 精细的指令遵循:通过改进的对齐技术,LLaMA 3.1 在遵循复杂指令、理解微妙提示方面表现更出色,使模型行为更可预测和可控。
  • 完善的工具使用:增强了 Function Calling 能力,使模型能够更准确地识别何时以及如何调用外部工具,提高了与外部系统集成的能力。

LLaMA 3.1 发布了 8B、70B 和 405B 三个规模的模型,分别提供基础版(Base)和指令微调版(Instruct),进一步扩展了 LLaMA 系列在开源社区的影响力和应用前景。

1.3.2.2 DeepSeek 系列

DeepSeek 使用地址

DeepSeek 开源地址

DeepSeek 是由 深度求索 (DeepSeek) 团队 开发的开源大语言模型系列。首个版本于 2023 年 11 月 发布。DeepSeek 采用 decoder-only 架构,融合了 FlashAttention-2、RoPE 位置编码、SwiGLU 等先进技术,在多语言理解和代码生成等方面表现出色。

模型发展历程:

  • 2023 年 11 月 12 日:发布 DeepSeek 系列基础模型,包括 7B 和 67B 两种规模的 Base 和 Chat 版本。模型在 1.2 万亿 token 上进行训练,同时发布了 DeepSeek-Coder 专用代码生成模型。
  • 2024 年 3 月 15 日:发布 DeepSeek-V2 系列,提升了多语言能力、长文本理解和推理能力,同时发布了 DeepSeek-MoE 混合专家模型。
  • 2024 年 5 月 31 日:发布 DeepSeek-V2.5,性能得到进一步提升,上下文长度扩展至 128K tokens,并改进了工具调用和多模态能力。
  • 2024 年 10 月:发布 **DeepSeek-V3**,在推理能力、多语言理解和创意生成方面有显著提升,支持更复杂的系统提示词控制,并进一步提升了代码质量和多轮对话一致性。
  • 2025 年 2 月
    • DeepSeekR1 推理型大模型,专注于复杂问题求解和精确推理能力,在数学、逻辑推理和结构化知识方面展现出卓越性能,类似于 OpenAI 的 o1 系列。并且是首个开源的推理型大模型,在多项基准测试中超越了 o1 系列。
    • DeepSeek-R1-Zero 直接在大规模强化学习 (RL) 训练的模型,无需 SFT,在推理方面就十分出色。
    • 同时开源了用 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏出的六个 dense 模型。 其中 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。

deepseek 目前采用的主要改进如下:

  • 多头潜在注意力 (MLA,Multi-head Latent Attention) :通过将键值 (KV) 缓存显著压缩为潜在向量来保证高效推理的同时不降低效果。
  • DeepSeekMoE,通过稀疏计算以经济的成本训练强大的模型。
  • 一系列推理加速技术

借助着 DeepSeekR1 的卓越能力,DeekSeep 成为了现象级爆火应用。7 天 完成了 1 亿用户的增长,打破了 ChatGPT 的 2 个月的最快记录,成为史上增长最快的 AI 应用。

增长 1 亿用户所需时间

以下是 DeepSeek 的界面: 

DeepSeek 界面

目前各大主流平台基本上都接入了 DeepSeek。

1.3.2.3 通义千问

通义千问使用地址

通义千问开源地址

通义千问由阿里巴巴基于 "通义" 大模型研发,于 2023 年 4 月 正式发布。

  • 2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。
  • 2024 年 6 月 6 日,正式开源了 Qwen2
  • 2025 年 3 月 1 日,发布了全新升级的 Qwen2.5 系列模型。

Qwen 系列均采用 decoder-Only 架构,并结合 SwiGLU 激活RoPEGQA 等技术。中文能力相对来说非常不错的开源模型。

目前,已经开源了 7 种模型大小:0.5B、1.5B、3B、7B、14B、72B 的 Dense 模型;所有模型均支持长度为 128K token 的上下文。Qwen2.5 进一步增强了模型性能,改进了推理能力和指令遵循能力,同时保持了低资源部署的高效性,使其在长文本理解和复杂任务处理方面具有更强的优势。

同时还开源了代码模型和数学模型:

  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的 32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及 72B。

在推理大模型方面:于 2024 年 11 月 发布并开源了 QwQ-32B-Preview 模型, 仅用 32B 参数便在部分达到了 o1-mini 的推理水平。

并于 2025 年 3 月发布并开源了 QwQ-32B,其性能可与具备 671B 参数(37B 激活参数)的 DeepSeek-R1 媲美。

以下是通义千问的使用界面: 

通义千问界面

1.3.2.4 GLM 系列

ChatGLM 使用地址

ChatGLM 开源地址

GLM 系列模型是 清华大学和智谱 AI 等 合作研发的语言大模型。

  • 2023 年 3 月,发布了 ChatGLM
  • 2024 年 1 月,发布了 GLM4,并于 2024 年 6 月 正式开源。

GLM-4-9B-Chat 支持多轮对话的同时,还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等功能。

开源了 对话模型 GLM-4-9B-Chat基础模型 GLM-4-9B长文本对话模型 GLM-4-9B-Chat-1M(支持 1M 上下文长度)、多模态模型 GLM-4V-9B 等全面对标 OpenAI:

chatglm VS openai

以下是智谱清言的使用界面:

智谱清言界面

1.3.2.5 Baichuan 系列

百川使用地址

百川开源地址

Baichuan 是由 百川智能 开发的 开源可商用 的语言大模型,其基于 Transformer 解码器架构(decoder-only)

  • 2023 年 6 月 15 日,发布了 Baichuan-7B 和 Baichuan-13B。百川同时开源了 预训练 和 对齐 模型,预训练模型是面向开发者的“基座”,而 对齐模型则面向广大需要对话功能的普通用户
  • Baichuan2 于 2023 年 9 月 6 日 推出,发布了 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化
  • 2024 年 1 月 29 日,发布了 Baichuan 3,但是 目前还没有开源

以下是百川大模型的使用界面: 

百川界面

相关文章:

  • 【阿里云大模型高级工程师ACP习题集】2.4 自动化评测答疑机器人的表现(⭐️⭐️⭐️ 重点章节!!!)
  • Java Collections工具类指南
  • 计算机组成与体系结构:直接内存映射(Direct Memory Mapping)
  • Spring Boot YML配置值“011“在代码中变为9的问题解析
  • leetcode 2799. 统计完全子数组的数目 中等
  • 玩转Docker | Docker部署LMS轻量级音乐工具
  • 加深对vector理解OJ题
  • MQTT 之 EMQX
  • pnpm install报错:此系统上禁止运行脚本
  • 电竞俱乐部护航点单小程序,和平地铁俱乐部点单系统,三角洲护航小程序,暗区突围俱乐部小程序
  • 1.7软考系统架构设计师:系统架构设计师概述 - 超简记忆要点、知识体系全解、考点深度解析、真题训练附答案及解析
  • 【LLM+Code】Github Copilot Agent/VsCode Agent 模式PromptTools详细解读
  • windows系统自定义powshell批处理脚本
  • AOSP CachedAppOptimizer 冻结方案
  • 哑光蓝色调风光人像Lr调色教程,手机滤镜PS+Lightroom预设下载!
  • 部署本地知识库,怎么选择 vllm 和 langchain_ollama
  • MATLAB 中的图形绘制
  • Cadence 建立复合原理图封装时怎么切换页面
  • Django创建的应用目录详细解释以及如何操作数据库自动创建表
  • JavaScript 中的尾递归:优点与应用场景
  • 全国党委和政府秘书长会议在京召开,蔡奇出席并讲话
  • 纳斯达克中国金龙指数涨2.93%,金价油价大幅下挫
  • 乌代表团与美特使在伦敦举行会谈,双方同意继续对话
  • 佩斯科夫:俄美总统会晤正在筹备中,未设定停火最后期限
  • 魔都眼·上海车展②|小鹏汽车:何小鹏携手机器人车模首秀
  • 最高法:学校未及时发现并制止校园暴力行为,需承担侵权责任