当前位置: 首页 > news >正文

【vLLM 学习】Aqlm 示例

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码:vllm-project/vllm

from vllm import LLM, SamplingParams
from vllm.utils import FlexibleArgumentParserdef main():parser = FlexibleArgumentParser(description='AQLM examples')parser.add_argument('--model','-m',type=str,default=None,help='model path, as for HF')parser.add_argument('--choice','-c',type=int,default=0,help='known good models by index, [0-4]')parser.add_argument('--tensor-parallel-size','-t',type=int,default=1,help='tensor parallel size')args = parser.parse_args()models = ["ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Llama-2-7b-AQLM-2Bit-2x8-hf","ISTA-DASLab/Llama-2-13b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf","BlackSamorez/TinyLlama-1_1B-Chat-v1_0-AQLM-2Bit-1x16-hf",]model = LLM(args.model if args.model is not None else models[args.choice],tensor_parallel_size=args.tensor_parallel_size)sampling_params = SamplingParams(max_tokens=100, temperature=0)outputs = model.generate("Hello my name is",sampling_params=sampling_params)print(outputs[0].outputs[0].text)if __name__ == '__main__':main()

相关文章:

  • 嵌入式ARM RISCV toolchain工具 梳理arm-none-eabi-gcc
  • PHP腾讯云人脸核身获取FaceId
  • 哪种电脑更稳定?Mac?Windows?还是云电脑? 实测解密
  • YOLOv8技术详解:革命性的目标检测算法
  • Spring lazy-init 懒加载的原理
  • Linux 日常运维命令大全
  • Tensorflow释放GPU资源
  • hadoop的三大结构及各自的作用
  • 使用Jasypt对配置文件内容加密
  • 十天借助 Trae 实现 “幸运塔塔屋” 小程序时光记忆功能之旅
  • 学术AI工具推荐
  • 前端零基础入门到上班:Day7——表单系统实战全解析
  • 2025最新系统 Linux 教程(四)
  • Hadoop的三大结构及其作用
  • 开源 vs. 闭源:大模型的未来竞争格局
  • 学习设计模式《一》——简单工厂
  • 5.Rust+Axum:打造高效错误处理与响应转换机制
  • 4.18日学习--引用
  • LINUX418 加载YUM源 wireshark ping程序 解析
  • C++: 类和对象(中)
  • 七大外贸省市,靠什么撑起一季度的出口?
  • 安徽一季度GDP为12265亿元,同比增长6.2%
  • “中国共产党的故事——习近平新时代中国特色社会主义思想在重庆的实践”重庆经贸推介会成功举办
  • 上海虹桥机场口岸单日出入境突破1.1万人次,创今年新高
  • 上海古籍书店重新开卷,在这里淘旧书获新知
  • 成了“一日顶流”又能如何?