当前位置: 首页 > news >正文

【大语言模型_6】mindie启动模型错误整理

一、启动报 [hccl_runner.cpp:141] AllGatherHcclRunner:0 HcclCommInitRootInfo fa               il, error:2, rank:0, rankSize:2

背景:运行DeepSeek-R1-Distill-Qwen-14B模型,在2张300 P卡可以运行,单独一张启动报以上错误。

问题分析:hccl在创建通信域时,相应的卡需要分配大约300M的device内存,因此每张卡所在的通信域的数量越多,则额外需要的内存越多,因此会有内存不足的问题。 

参考链接:

分布式并行快问快答来咯!|昇思MindSpore分布式并行FAQ_hccl function error: hcclcomminitrootinfo(numranks-CSDN博客

相关文章:

  • 2025年【安全员-C证】新版试题及安全员-C证理论考试
  • Unity实现连连看连线效果
  • 【大模型系列篇】硅基智能开源数字人模型HeyGem.ai,开启数字人时刻
  • el-table的行向上移动向下移动,删除选定行
  • 网络编程(客户端间通信)
  • numpy学习笔记5:arr.T 是数组的转置属性详细解释
  • AI学习——卷积神经网络(CNN)入门
  • 计算机网络-网络接入技术
  • 【图像处理基石】什么是HDR图片?
  • Git 分支使用规范全解(多人协作开发适用)
  • 火星探测发展概述2025.3.20
  • JAVA序列化与反序列化URLDNS链CC1链
  • 【初学者】谈谈ChatGPT使用的算法?
  • IMX8MP Android 10系统编译SDK
  • LeetCode 30 —— 30.串联所有单词的子串
  • MobaXterm(远程终极工具箱) v25.1 Build 5288 汉化绿色版
  • Rust语言介绍和猜数字游戏的实现
  • Flink集群部署
  • 集装箱箱号OCR识别技术,在铁路物流场站集装箱装卸机械数字化系统中的应用
  • 高级java每日一道面试题-2025年3月05日-微服务篇[Eureka篇]-Eureka在微服务架构中的角色?
  • 中信银行一季度净利195.09亿增1.66%,不良率持平
  • 巴西外长维埃拉:国际形势日益复杂,金砖国家必须发挥核心作用
  • 韩国下届大选执政党初选4进2结果揭晓,金文洙、韩东勋胜出
  • “五一”假期倒计时,节前错峰出游机票降价四成
  • 影子调查|23岁男子驾照拟注销背后的“被精神病”疑云
  • 从地下金库到地上IP,看海昏汉文化“最美变装”