当前位置: 首页 > news >正文

大模型转换为 GGUF 以及使 用 ollama 运行

什么是 GGUF

GGUF 格式的全名为(GPT-Generated Unified Format),提到
GGUF 就不得不提到它的前身 GGML(GPT-Generated Model
Language)。GGML 是专门为了机器学习设计的张量库,最早可
以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并
且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发
中,遇到了灵活性不足、相容性及难以维护的问题。

GGUF 的核心特点

1.统一且高效:
将模型架构、权重、超参数、tokenizer信息等整合到单个文件中,简化部署流程。
采用二进制格式,加载速度更快,内存占用更低。

2.量化支持:

支持多种量化级别(如4-bit、5-bit、8-bit等),显著减小模型体积(例如,70B参数的模型可压缩到几十GB甚至更小),同时保持合理的推理精度。

3.跨平台兼容性:

设计为硬件无关,可在CPU/GPU(通过CUDA、Metal等)上运行,适合边缘设备(如树莓派、手机等)。
被llama.cpp、Alpaca.cpp等轻量级推理框架原生支持。

4.扩展性:
支持嵌入额外信息(如训练配置、作者信息等),便于模型分发和版本管理。

GGUF vs GGML

GGML是早期格式,功能有限࿰

相关文章:

  • Maven 简介(图文)
  • 幽灵依赖与常见依赖管理
  • ObjectOutputStream 深度解析
  • 2025年03月中国电子学会青少年软件编程(Python)等级考试试卷(三级)答案 + 解析
  • AI测试用例生成平台
  • uni.createInnerAudioContext踩坑duration在真机环境一直为0
  • PostgreSQL 通过 copy 命令导入几何数据 及 通过 CopyManager.copyIn() 导入几何数据
  • PH热榜 | 2025-04-18
  • 视频孪生技术赋能城市内涝灾害智慧化建设
  • 直播人脸美型核心技术详解:卷积神经网络与图像增强在美颜SDK中的应用
  • 什么是爬虫?——从技术原理到现实应用的全面解析
  • STM32F7安全库各版本发布内容的表格化中文总结
  • C++——C++11常用语法总结
  • CentOS 7系统yum报错解决方案(CentOS 7官方EOL问题修复)
  • 使用droidrun库实现AI控制安卓手机
  • Python读取Excel表数据转为JSON格式文件(详细优化版)
  • 软件研发技术团队管理规范
  • 怎么隐藏QTabWidget内的页面
  • 如何校验一个字符串是否是可以正确序列化的JSON字符串呢?
  • 优恩-具备浪涌保护功能的固态继电器UNRD0610-无触点开关器件‌
  • 精细喂养、富养宠物,宠物经济掀起新浪潮|私家周历
  • 北京:义务教育阶段入学将积极为多孩家庭长幼随学创造条件
  • 数据短缺阻碍AI一体机落地,专家提出数据元件治理新路径
  • 轻轻一碰就血流不止?血友病患者的“隐形创可贴”来了
  • 进课堂、进社区、进基层,全民国家安全教育迎来十周年
  • 技术派|菲律宾“史上最强”护卫舰交付,性能如何?