当前位置: 首页 > news >正文

TPU-MLIR——实现Chatglm2-6B大模型移植部署

TPU-MLIR——实现Chatglm2-6B大模型移植部署

本项目实现BM1684X部署语言大模型ChatGLM2-6B。通过TPU-MLIR编译器将模型转换成bmodel,并采用c++代码将其部署到BM1684X的PCIE环境,或者SoC环境。

编译chatglm2-6B模型

1. 下载‘Chat-GLM2-6B’

在这里插入图片描述

2. 对该模型做两点修改:

一是将config.json文件中seq_length配置为512;
二是将modeling_chatglm.py文件中的如下代码:在这里插入图片描述

修改为:
在这里插入图片描述

这样修改可以提升效率,使用masked_fill效率低下

加载并编译TPU-MLIR:
在这里插入图片描述

下载本项目‘ChatGLM2-TPU’
在这里插入图片描述

编译模型
  1. 指定’ChatGLM2-6B‘的python路径
    在这里插入图片描述

  2. 导出所有onnx模型,如果过程中提示缺少某些组建,直接’pip install‘即可
    在这里插入图片描述

  3. 对onnx模型进行编译,生成bmodel,这个过程会花一些时间,最终生成’chatglm2-6b.bmodel’文件
    在这里插入图片描述

移植模型到开发板
  1. chatglm2-6b.bmodeltokenizer.model拷贝到开发板运行环境。(tokenizer.model来自ChatGLM2-6B)
    在这里插入图片描述

C++部署测试(1684X开发板)

编译模型
  1. 将sentencepiece编译后/workspace/sentencepiece/build/src/目录下SoC版本的libsentencepiece.a替换到此目录的/lib/下,进入chatglm2-tpu/demo目录进行编译

    在这里插入图片描述
    在这里插入图片描述

    如果要编译SoC环境,则修改CMakeLists.txt为以下内容:【 CMakeLists.txt在上一级目录 】
    在这里插入图片描述

  2. 编译
    在这里插入图片描述

  3. 将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。
    在这里插入图片描述

连接开发板

通过本地网络适配器网线直连方式,IP地址:192.168.150.1,用户名:linaro 密码:linaro
在这里插入图片描述

也可通过串口Serial连接,设置COM口,Speed为115200
成功进入显示linaro@bm1684的Ubuntu系统
通过LAN口网络连接方式,IP地址:172.xxx.xxx.xxx(DHCP获取的地址,可通过串口ifconfig查看IP),用户名:linaro 密码:linaro

开发板运行

进入到/data/目录,查看scp传输的文件:
在这里插入图片描述

执行编译好的C++代码,即可实现在线chat
在这里插入图片描述

c++部署完成!

python部署测试(1684x开发板)

编译模型
  1. 进入chatglm2-tpu/python_demo目录进行编译
    在这里插入图片描述

    如果要编译SoC环境,则修改CMakeLists.txt为以下内容:【 CMakeLists.txt在上一级目录 】
    在这里插入图片描述

  2. 编译
    在这里插入图片描述

    编译成功会生成ChatGLM2.cpython-38-x86_64-linux-gnu.so,之后将chatglm2-6b.bmodel放到python_demo目录下。

  3. 将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。
    在这里插入图片描述

连接开发板

通过本地网络适配器网线直连方式,IP地址:192.168.150.1,用户名:linaro 密码:linaro
在这里插入图片描述

也可通过串口Serial连接,设置COM口,Speed为115200
成功进入显示linaro@bm1684的Ubuntu系统
通过LAN口网络连接方式,IP地址:172.xxx.xxx.xxx(DHCP获取的地址,可通过串口ifconfig查看IP),用户名:linaro 密码:linaro

开发板运行

进入到/data/目录,查看scp传输的文件:
在这里插入图片描述

运行
在这里插入图片描述

python部署完成!

相关文章:

  • Altair SimSolid仿真技术应用 衡祖仿真
  • 机器学习的主要内容
  • 构建基于neo4j知识图谱、elasticsearch全文检索的数字知识库
  • 【LeetCode-简单题】589. N 叉树的前序遍历
  • windows 安装Linux子系统 Ubuntu 并配置python3
  • 你需要知道DDD基本知识
  • GoAccess实时分析Nginx日志
  • Python批量统计pdf中“中文”字符的个数
  • C 初级学习笔记(基础)
  • Python之列表
  • java实现力扣计算器
  • Nginx 解决内容安全策略CSP(Content-Security-Policy)配置方式
  • Leetcode55. 跳跃游戏
  • 基于若依ruoyi-nbcio增加flowable流程待办消息的提醒,并提供右上角的红字数字提醒(八)
  • StartUML 5.1.0文本框中文自动换行和排版问题解决
  • Python:Django框架的Hello wrold示例
  • matlab读写json文件
  • unity自己对象池的使用
  • CHAPTER 10: DESIGN A NOTIFICATION SYSTEM
  • C/C++统计满足条件的4位数个数 2023年5月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析
  • 中保协:当前普通型人身保险产品预定利率研究值为2.13%
  • 什么样的赛事能推进建设全球著名体育城市,上海半马就是答案
  • 广西出现今年首场超警洪水
  • 云南昆明市副市长戴惠明已任市委常委、秘书长
  • 长安汽车辟谣抛弃华为,重奖百万征集扩散不实内容的背后组织
  • 金融监管总局:建立保险销售人员违法违规导致经济损失的佣金薪酬追索扣回机制