当前位置: 首页 > news >正文

vllm+vllm-ascend本地部署QwQ-32B

1 模型下载

可按照此处方法下载预热后的模型,速度较快(推荐artget方式)

https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms

或者从hugging face官方下载。

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest
拉取镜像(v0.7.0.3的正式版本尚未发布)

docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev

启动镜像
QwQ-32B 需要70G以上显存,2张64G的卡

docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash

/xxx/models/llmmodels是宿主机放模型的目录,/usr1/project/models是容器内目录

2.2 源码编译安装

# Install vLLM
git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/
cd ..# Install vLLM Ascend
git clone  --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

具体可以参考链接:https://vllm-ascend.readthedocs.io/en/latest/installation.html

3 启动模型

openai兼容接口

vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &

/usr1/project/models/QwQ-32B:模型路径
tensor_parallel_size:和卡数量保持一致
served-model-name:接口调用需要传入的模型名称
vllm其余具体参数含义请参考vllm官方文档
在这里插入图片描述

相关文章:

  • MYSQL之基础认识(卸载安装登录, 基本概念)
  • Linux论坛安装
  • 【第四章】19-匹配规则定义
  • JavaScript实现二级菜单
  • 【uniapp-兼容性处理】安卓uView组件中u-input后置插槽不展示
  • Vmware esxi 给现有磁盘增加空间后并扩展系统里磁盘空间
  • Redis 键管理
  • AI Agent认知框架(ReAct、函数调用、计划与执行、自问自答、批判修正、思维链、思维树详解和对比,最后表格整理总结
  • redis-7 安装
  • linux sysfs使用cat无显示的原因:返回值未赋值
  • 《深入解析C++中的explicit关键字:防止隐式转换的利器》
  • C语言main的参数;argc与argv
  • 开源键鼠共享软件的“爱恨情仇“:Deskflow、InputLeap与Barrier的演化史
  • Shell脚本-四则运算符号
  • spark基础介绍
  • Neowise Labs Contest 1 (Codeforces Round 1018, Div. 1 + Div. 2)(A~E)
  • 在Ubuntu 18.04下编译OpenJDK 11
  • 【每天一个知识点】主题建模(Topic Modeling)
  • NHANES指标推荐:PhenoAge
  • 【时时三省】(C语言基础)循环的嵌套和几种循环的比较
  • 旁白丨还在寻亲路上的家长们,期待“上岸”
  • 商务部:支持“来数加工”等新业态新模式,发展游戏出海业务
  • 分离19年后:陈杨梅首度露面,父亲亲手喂棉花糖给女儿吃
  • 广西出现今年首场超警洪水
  • 上海召开全市加强社会治安综合治理中心规范化建设工作推进会
  • 许志强评《伐木》|伯恩哈德的文人共和国