当前位置：首页 > news >正文

大模型转换为 GGUF 以及使用 ollama 运行

news 来源：原创 2025/4/19 12:35:13

什么是 GGUF

GGUF 格式的全名为（GPT-Generated Unified Format），提到
GGUF 就不得不提到它的前身 GGML（GPT-Generated Model
Language）。GGML 是专门为了机器学习设计的张量库，最早可
以追溯到 2022/10。其目的是为了有一个单文件共享的格式，并
且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发
中，遇到了灵活性不足、相容性及难以维护的问题。

GGUF 的核心特点

1.统一且高效：
将模型架构、权重、超参数、tokenizer信息等整合到单个文件中，简化部署流程。
采用二进制格式，加载速度更快，内存占用更低。

2.量化支持：

支持多种量化级别（如4-bit、5-bit、8-bit等），显著减小模型体积（例如，70B参数的模型可压缩到几十GB甚至更小），同时保持合理的推理精度。

3.跨平台兼容性：

设计为硬件无关，可在CPU/GPU（通过CUDA、Metal等）上运行，适合边缘设备（如树莓派、手机等）。
被llama.cpp、Alpaca.cpp等轻量级推理框架原生支持。

4.扩展性：
支持嵌入额外信息（如训练配置、作者信息等），便于模型分发和版本管理。

GGUF vs GGML

GGML是早期格式，功能有限࿰

相关文章：

Maven 简介（图文）

幽灵依赖与常见依赖管理

ObjectOutputStream 深度解析

2025年03月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析

AI测试用例生成平台

uni.createInnerAudioContext踩坑duration在真机环境一直为0

PostgreSQL 通过 copy 命令导入几何数据及通过 CopyManager.copyIn() 导入几何数据

PH热榜 | 2025-04-18

视频孪生技术赋能城市内涝灾害智慧化建设

直播人脸美型核心技术详解：卷积神经网络与图像增强在美颜SDK中的应用

什么是爬虫？——从技术原理到现实应用的全面解析

STM32F7安全库各版本发布内容的表格化中文总结

C++——C++11常用语法总结

CentOS 7系统yum报错解决方案（CentOS 7官方EOL问题修复）

使用droidrun库实现AI控制安卓手机

Python读取Excel表数据转为JSON格式文件（详细优化版）

软件研发技术团队管理规范

怎么隐藏QTabWidget内的页面

如何校验一个字符串是否是可以正确序列化的JSON字符串呢?

优恩-具备浪涌保护功能的固态继电器UNRD0610-无触点开关器件‌

精细喂养、富养宠物，宠物经济掀起新浪潮｜私家周历

北京：义务教育阶段入学将积极为多孩家庭长幼随学创造条件

数据短缺阻碍AI一体机落地，专家提出数据元件治理新路径

轻轻一碰就血流不止？血友病患者的“隐形创可贴”来了

进课堂、进社区、进基层，全民国家安全教育迎来十周年

技术派｜菲律宾“史上最强”护卫舰交付，性能如何？