大模型转换为 GGUF 以及使 用 ollama 运行
什么是 GGUF
GGUF 格式的全名为(GPT-Generated Unified Format),提到
GGUF 就不得不提到它的前身 GGML(GPT-Generated Model
Language)。GGML 是专门为了机器学习设计的张量库,最早可
以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并
且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发
中,遇到了灵活性不足、相容性及难以维护的问题。
GGUF 的核心特点
1.统一且高效:
将模型架构、权重、超参数、tokenizer信息等整合到单个文件中,简化部署流程。
采用二进制格式,加载速度更快,内存占用更低。
2.量化支持:
支持多种量化级别(如4-bit、5-bit、8-bit等),显著减小模型体积(例如,70B参数的模型可压缩到几十GB甚至更小),同时保持合理的推理精度。
3.跨平台兼容性:
设计为硬件无关,可在CPU/GPU(通过CUDA、Metal等)上运行,适合边缘设备(如树莓派、手机等)。
被llama.cpp、Alpaca.cpp等轻量级推理框架原生支持。
4.扩展性:
支持嵌入额外信息(如训练配置、作者信息等),便于模型分发和版本管理。
GGUF vs GGML
GGML是早期格式,功能有限