当前位置: 首页 > news >正文

debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述 

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关文章:

  • Java IntelliJ IDEA 中配置多个 JDK 版本
  • 洛谷题单1-B2025 输出字符菱形-python-流程图重构
  • matplotlib——南丁格尔玫瑰
  • K8S接口请求过程
  • 【CI/CD】Ansible知识库
  • # 使用自定义Shell脚本hello快速配置Linux用户账户
  • 【408--复习笔记】数据结构
  • 第十三届蓝桥杯单片机省赛程序设计试题
  • linux/android 如何获取当前系统启动时长
  • Vue学习笔记集--导航篇
  • 精华贴分享|从不同的交易理论来理解头肩形态,殊途同归
  • WPF的MVVM的基础知识
  • 推荐一个可以自定义github主页的网站
  • 深度剖析 Spring 源码 性能优化:核心原理与最佳实践
  • uniapp 在app上 字体如何不跟着系统字体大小变
  • deepseek(2)——deepseek 关键技术
  • OpenEuler linux samba部分目录无法访问的问题
  • 使用 Spring Boot 3.2 集成 MinIO 8.5:实现高效对象存储
  • 爬虫豆瓣电影
  • 大模型开发框架LangChain GO
  • 港交所与香港证监会就“中概股回流意向”已与部分相关企业进行接触
  • 阿里开源首个“混合推理模型”:集成“快思考”、“慢思考”能力
  • “上报集团文化助力区域高质量发展赋能平台”揭牌
  • 广东雷州农商行董事长、原行长同日被查
  • 非法收受财物逾1648万,湖南原副厅级干部康月林一审被判十年半
  • 中国纪检监察报刊文:要让劳动最光荣成为社会的崇高风尚