当前位置：首页 > news >正文

debug 笔记：llama 3.2 部署bug 之cutlassF: no kernel found to launch!

news 来源：原创 2025/4/30 7:30:00

1 问题描述

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

Java IntelliJ IDEA 中配置多个 JDK 版本

洛谷题单1-B2025 输出字符菱形-python-流程图重构

matplotlib——南丁格尔玫瑰

K8S接口请求过程

【CI/CD】Ansible知识库

# 使用自定义Shell脚本hello快速配置Linux用户账户

【408--复习笔记】数据结构

第十三届蓝桥杯单片机省赛程序设计试题

linux/android 如何获取当前系统启动时长

Vue学习笔记集--导航篇

精华贴分享｜从不同的交易理论来理解头肩形态，殊途同归

WPF的MVVM的基础知识

推荐一个可以自定义github主页的网站

深度剖析 Spring 源码性能优化：核心原理与最佳实践

uniapp 在app上字体如何不跟着系统字体大小变

deepseek(2)——deepseek 关键技术

OpenEuler linux samba部分目录无法访问的问题

使用 Spring Boot 3.2 集成 MinIO 8.5：实现高效对象存储

爬虫豆瓣电影

大模型开发框架LangChain GO

港交所与香港证监会就“中概股回流意向”已与部分相关企业进行接触

阿里开源首个“混合推理模型”：集成“快思考”、“慢思考”能力

“上报集团文化助力区域高质量发展赋能平台”揭牌

广东雷州农商行董事长、原行长同日被查

非法收受财物逾1648万，湖南原副厅级干部康月林一审被判十年半

中国纪检监察报刊文：要让劳动最光荣成为社会的崇高风尚

1 问题描述

2 解决方法

相关文章：