NLP高频面试题(五十五)——DeepSeek系列概览与发展背景
大型模型浪潮背景
近年来,大型语言模型(Large Language Model, LLM)领域发展迅猛,从GPT-3等超大规模模型的崛起到ChatGPT的横空出世,再到GPT-4的问世,模型参数规模和训练数据量呈指数级增长。以GPT-3为例,参数高达1750亿,在570GB文本数据上训练,显示出模型规模、数据量和算力对性能的巨大提升作用。研究表明,LLM的性能随模型大小、数据规模和计算量呈幂律上升关系。更重要的是,当模型在海量数据上训练后,往往会出现“小模型不具备而大模型涌现”的新能力——即使在未见过的任务上,大模型也能展现出零样本或少样本学习的能力。
在这一浪潮中,开源社区同样功不可没。早期有EleutherAI等组织尝试复现GPT-3的开源版本(如GPT-Neo、GPT-J等),而2023年Meta发布的LLaMA模型提供了高质量的基础模型,使研究者能够在此基础上微调出诸如Vicuna等各类开源对话模型。参数规模从几十亿到上千亿不等的开源模型相继出现,验证了规模、数据对模型能力的关键影响。同时,关于**“Scaling Laws”**(规模定律)的研究进一步系统阐明:模型越大、训练语料越充足,性能提升越显著,但也需要平衡训练计算成本和数据规模,以避免浪费模型容量。这一系列进展奠定了大模型时代的基础,也让学术界和工业界认识到参数