当前位置：首页 > news >正文

【自然语言处理与大模型】大模型参数规模与部署配置调查2025第一季度

news 来源：原创 2025/4/24 8:15:46

调查大模型参数规模与部署配置之间的关系。探讨如何在不同硬件和场景下优化大模型的部署。

一、当前主流模型的参数规模对比

（1）当前主流模型有哪些

参考全球最大AI开源社区Hugging Face发布的榜单、上海AI实验室推出的开放评测体系OpenCompass和国内开源AI社区魔塔社区的下载排行。

hugging face的4月榜单

OpenCompass的4月榜单

魔塔社区文本生成开源模型下载top12

魔塔社区文生图模型top10

闭源模型则指那些由公司或组织开发，但不对外公开其详细实现细节或训练数据的模型。这些模型通常是出于商业利益考虑而保持私有，有时也可能因为涉及敏感的数据或技术而选择不公开。
开源模型是指其架构、训练数据集（如果适用）、以及训练代码都是公开的，允许任何人查看、使用、修改并部署这些模型。这种开放性促进了技术的快速传播和发展，并且有助于提高模型的透明度和信任度。

（2）模型参数规模对比

模型名	模型参数
DeepSeek-R1	671B
o1-2024-12-17	未知
o3-mini-2025-01-31	未知
Gemini-2.0-Pro-Exp-02-05	未知
o1-mini-2024-09-12	未知
Gemini-2.0-Flash-001	未知
DeepSeek-V3	未知
Doubao-1.5-pro-32k-250115	未知
Qwen2.5-Max	未知
QwQ-32B-Preview	32B
calme-3.2-instruct-78b	78B
calme-3.1-instruct-78b	78B
CalmeRys-78B-Orpo-v0.1	78B
calme-2.4-rys-78b	78B
Qwen2.5-72B-Instruct-abliterated	72B
Qwen2.5-72B-Instruct	72B
calme-2.1-qwen2.5-72b	72B
Homer-v1.0-Qwen2.5-72B	72B
qwen2.5-test-32b-it	32B
Linkbricks-Horizon-AI-Avengers-V1-32B	32B
calme-2.2-qwen2.5-72b	72B
Qwen2-32B	32B
Qwen2.5-7B-Instruct	7B
DeepSeek-R1-Distill-Qwen-32B-AWQ	32B
DeepSeek-R1-Distill-Qwen-32B-GPTQ-Int4	32B
DeepSeek-R1-Distill-Llama-70B	70B
Qwen2-72B-Instruct	72B
DeepSeek-R1-Distill-Qwen-32B	32B
DeepSeek-R1-Distill-Qwen-1.5B	1.5B
CodeQwen1.5-7B-Chat	7B

把主流的模型参数汇总成表，并剔除未知参数的模型，能得到下面这个表：

模型参数规模B	SOTA模型个数
671	1
32	5
78	4
72	3
7	1
1.5	1

2025年4月数据

统计可知参数规模在32到78B之间的模型是目前的主流。

二、模型部署配置

模型推理部署的资源占用主要是看显存。给出显存占用公式为：显存（GB） = 参数量（B） × 每个参数的字节大小。

模型参数规模（B）	FP16精度（GB）	INT8量化（GB）
671	1342	671
32	64	32
78	156	78
72	144	72
7	14	7
1.5	3.0	1.5

上述计算提供了理论上在推理的时候的显存需求，实际部署时可能因架构、优化器和硬件配置的不同而有所变化。

在模型微调时，显存占用通常会比推理时更高，因为微调需要存储额外的梯度信息、优化器状态以及激活值。一般的估算如下：

● FP32精度：微调显存通常为推理显存的 3-4倍，因为需要存储梯度和优化器状态。

● FP16精度：由于混合精度训练的存在，显存占用通常为推理显存的 2-3倍。

● INT8量化：量化微调（QLoRA等）技术可以明显降低显存需求，通常为推理显存的 1.5-2倍。

相关文章：

[特殊字符] 大模型对话风格微调项目实战——模型篇 [特殊字符]✨

深度解析：透过十问十答洞悉大模型SFT的应用策略

gem5-gpu教程04 高速缓存一致性协议和缓存拓扑

【电机仿真】MPC模型预测转速、电流双闭环控制器——PMSM有感FOC控制

Java面试：探索Spring Boot与微服务的深度挑战

关于编译原理——语义翻译器的设计

图文结合 - 储能系统产品需求文档（PRD）- （慧哥）慧知开源充电桩平台

互联网大厂Java面试：RocketMQ、RabbitMQ与Kafka的深度解析

QT6 源（45）：分隔条 QSplitter 允许程序的用户修改布局，程序员使用 IDE时，就是分隔条的用户，以及其 QSplitter 源代码

MyBatis中的@Param注解-如何传入多个不同类型的参数

（09）Vue脚手架的使用（Vite、vue-cli、create-vue）

软件项目实施全流程及交付物清单

逻辑漏洞安全

硬核科普丨2025年安全、高效网络准入控制系统深度解析

配电室安全用电漏电保护装置的安全用电措施

【水印图片文字识别】水印相机拍摄的照片提取重要的信息可以批量改名，批量识别水印文字内容批量给图片改名，基于QT和腾讯OCR的识别方案

2025.04.23华为机考第二题-200分

01 ubuntu中wps桌面快捷键无法使用

[STM32] 4-1 UART与串口通信

2.RabbitMQ - 入门

GDP十强省份“一季报”出炉，湖北领跑

再放宽！新版市场准入负面清单发布，无人驾驶航空器、电子烟等新业态被纳入

刺激视网膜可让人“看”到全新颜色

南京84.57亿元成交8宗宅地：仅秦淮区一宗地块溢价成交

世界最大全电驱可拆装环保绞吸船投入官厅水库清淤试点工程

中国围棋协会将不组队参加今年的LG杯世界棋王赛