当前位置: 首页 > news >正文

鲲鹏+昇腾部署集群管理软件GPUStack,两台服务器搭建双节点集群【实战详细踩坑篇】

前期说明

配置:2台鲲鹏32C2 + 2Atlas300I duo,之前看网上文档,目前GPUstack只支持910B芯片,想尝试一下能不能310P也部署试试,毕竟华为的集群软件要收费。
系统:openEuler22.03-LTS
驱动:24.1.rc3

在这里插入图片描述

前期准备

(1)安装Ascend-docker-runtime
在这里插入图片描述

chmod +x Ascend-docker-runtime_6.0.RC3_linux-aarch64.run  
./Ascend-docker-runtime_6.0.RC3_linux-aarch64.run

这玩意就是对Docker以插件方式提供Ascend NPU适配功能
在这里插入图片描述

部署GPUStack

docker run -it --privileged -u root --net=host --ipc=host \
  --name=gpustack \
  -p 80:80 \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \   #映射驱动
    -v /usr/local/sbin:/usr/local/sbin:ro \
  --device=/dev/davinci0 \  #2张卡4个芯片
  --device=/dev/davinci1 \
  --device=/dev/davinci2 \
  --device=/dev/davinci3 \
  gpustack/gpustack:latest-npu

这个命令我自己改的,原本官方那个太坑了,不映射驱动和NPU卡!

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password  ##获取密码,账号默认admin

在这里插入图片描述

登录GPUStack

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

部署worker节点

在这里插入图片描述

docker run -d \
  --name gpustack-worker \
  --restart=unless-stopped \
  -e ASCEND_VISIBLE_DEVICES=0 \
  -p 10150:10150 \
  -p 40000-41024:40000-41024 \
  -p 50000-51024:50000-51024 \
  --ipc=host \
  --device=/dev/davinci0 \
  --device=/dev/davinci1 \
  --device=/dev/davinci2 \
  --device=/dev/davinci3 \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
  -v /usr/local/sbin:/usr/local/sbin:ro \
  -v gpustack-worker-data:/var/lib/gpustack \
  gpustack/gpustack:v0.5.1-npu \
  --server-url http://192.168.124.19 \
  --token 5a3b06c91adf9090890258301bb75710 \
  --worker-ip 192.168.124.20

创建容器命令我自己改的,可以根据我这个创建,官方给的都是坑!
刷新一下页面,就可以看到worker节点了
在这里插入图片描述

GPUStack部署模型测试

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
总结:下载了三个模型,测试对话都失败,确实不支持310P,目前只支持910B!但是作为开源软件来说,GPUStack确实功能齐全,用起来方便,非常不错!
在这里插入图片描述

相关文章:

  • Redis存储“大数据对象”的常用策略及StackOverflowError错误解决方案
  • 第二十六:Mysql 慢查询 开启
  • Ollama模型显存管理机制解析与Flask部署方案对比
  • 【场景应用7】在TPU上使用Flax/JAX对Transformers模型进行语言模型预训练
  • TCPIP详解 卷1协议 六 DHCP和自动配置
  • WinForm真入门(16)——LinkLabel 控件详解
  • vue开发基础流程 (后20)
  • JMeter重要的是什么
  • Java 系统设计:如何应对高并发场景?
  • 阿里云服务器 Ubuntu如何使用git clone
  • 2025年SP SCI2区:自适应灰狼算法IGWO,深度解析+性能实测
  • LLM Post-Training
  • LeetCode[541]反转字符串Ⅱ
  • 字符串与相应函数(下)
  • 记录一次TDSQL网关夯住故障
  • 安全密码处理实践
  • Spring Boot 项目里设置默认国区时区,Jave中Date时区配置
  • AI大模型从0到1记录学习 数据结构和算法 day18
  • 实验一 字符串匹配实验
  • HDMI与DVI接口热插拔检测
  • 预热苏杯,“谁羽争锋”全国新闻界羽毛球团体邀请赛厦门开赛
  • 中信证券:“国家队”未曾减持ETF,应充分相信国家维稳决心
  • 牧原股份一季度归母净利润44.91亿元,同比扭亏为盈
  • 长三角议事厅|国际产业转移对中国产业链韧性的影响与对策
  • 见微知沪|最大力度消费补贴,最大程度满足人们对美好生活的向往
  • 研究|和去年相比,人们使用AI的需求发生了哪些变化?