当前位置: 首页 > news >正文

DeepSeek 即将联合 vLLM 开源推理引擎

DeepSeek 在其 GitHub 仓库发布预告称,即将开源推理引擎 DeepSeek Inference Engine。考虑到代码分支和维护资源等问题,他们选择了直接和 vLLM 等现有开源项目合作的方式进行开源。

合作原因

  • 代码差异大:DeepSeek 内部推理引擎源自一年多前的 vLLM 早期分支,经过长期针对 DeepSeek 模型的深度定制优化,已与 vLLM 主线或其他通用推理框架产生巨大差异,难以扩展到更广泛的应用场景。
  • 基础设施依赖强:该引擎与 DeepSeek 内部的集群管理系统、特定的硬件配置和运维流程紧密耦合,外部用户几乎无法在标准环境下直接部署,需要进行大规模重构才能剥离这些依赖,违背了开源项目通常追求的易用性原则。
  • 维护资源有限:作为一家以模型研发为核心的团队,DeepSeek 缺乏足够的资源来长期维护一个需要持续投入、支持广泛用例的大型开源项目。

合作策略

  • 提取独立功能:模块化并贡献可复用的组件作为独立库,方便其他开发者在不同场景下使用。
  • 分享优化细节:向 vLLM 等项目贡献设计思想、实现方法甚至具体的代码补丁,帮助 vLLM 更好地支持 DeepSeek 模型,同时也促进整个开源社区的技术进步。

社区反响

这一合作策略获得了社区的普遍理解和积极响应。vLLM 项目官方账号在社交平台 X 上明确表示支持,认为 DeepSeek “以正确的方式开源引擎”,即将改进带回社区使人人受益,而非创建一个独立的仓库。

此前,vLLM 在吸收 DeepSeek 2 月 “开源周” 所公布论文中的部分优化后,处理 DeepSeek 模型的性能已有显著提升(约 3 倍)5。根据 DeepSeek 公布的推理系统内部测试结果,每个 H800 节点在预填充期间平均吞吐量达到 73.7k tokens/s 输入(包括缓存命中),或在解码期间达到 14.8k tokens/s 输出,表明推理性能优化领域仍有巨大提升空间

相关文章:

  • AI-Sphere-Butler之如何使用Llama factory LoRA微调Qwen2-1.5B/3B专属管家大模型
  • C++ 俄罗斯方块 | Tetris⚡YQW · Studio ⚡【无需下载图片】
  • 铅酸电池充电器方案EG1253+EG4321
  • JVM 学习
  • Spring Boot 版本与对应 JDK 版本兼容性
  • 雨滴传感器详解(STM32)
  • Sharding-JDBC 系列专题 - 第二篇:广播表(Broadcast Tables)
  • VuePress 使用教程:从入门到精通
  • 算法题(129):二维前缀和
  • RHCSA Linux 系统文件内容显示2
  • FPGA学习(五)——DDS信号发生器设计
  • 国产动漫记录
  • LangChain4j语言模型选型指南:主流模型能力全景对比
  • FreeRTOS中断管理
  • 【Agent】AI智能体评测基座AgentCLUE-General
  • python解压复制文件
  • Python多进程并发编程:深入理解Lock与Semaphore的实战应用与避坑指南
  • 【每日八股】复习 Redis Day1:Redis 的持久化(上)
  • 力扣DAY60-61 | 热100 | 回溯:单词搜索、分割回文串
  • 二、在springboot 中使用 AIService
  • 民生访谈|让餐饮店选址合规性可查、社区妙趣横生,上海有实招
  • 中华人民共和国和阿塞拜疆共和国关于建立全面战略伙伴关系的联合声明
  • 当代读书人的暗号:不是拆快递,是拆出版社样书!|世界读书日特辑
  • 世界读书日丨阅读与行走,都是理解世界的方式
  • 我们的免疫系统,是世界上最好的“医生”
  • 全国首个医工交叉“MD+PhD”双博士培养项目在沪启动