当前位置：首页 > news >正文

NLP高频面试题（五十五）——DeepSeek系列概览与发展背景

news 来源：原创 2025/4/26 5:23:05

大型模型浪潮背景

近年来，大型语言模型（Large Language Model, LLM）领域发展迅猛，从GPT-3等超大规模模型的崛起到ChatGPT的横空出世，再到GPT-4的问世，模型参数规模和训练数据量呈指数级增长。以GPT-3为例，参数高达1750亿，在570GB文本数据上训练，显示出模型规模、数据量和算力对性能的巨大提升作用。研究表明，LLM的性能随模型大小、数据规模和计算量呈幂律上升关系。更重要的是，当模型在海量数据上训练后，往往会出现“小模型不具备而大模型涌现”的新能力——即使在未见过的任务上，大模型也能展现出零样本或少样本学习的能力。

在这一浪潮中，开源社区同样功不可没。早期有EleutherAI等组织尝试复现GPT-3的开源版本（如GPT-Neo、GPT-J等），而2023年Meta发布的LLaMA模型提供了高质量的基础模型，使研究者能够在此基础上微调出诸如Vicuna等各类开源对话模型。参数规模从几十亿到上千亿不等的开源模型相继出现，验证了规模、数据对模型能力的关键影响。同时，关于**“Scaling Laws”**（规模定律）的研究进一步系统阐明：模型越大、训练语料越充足，性能提升越显著，但也需要平衡训练计算成本和数据规模，以避免浪费模型容量。这一系列进展奠定了大模型时代的基础，也让学术界和工业界认识到参数