Kimi-VL 解读:高效 MoE 视觉语言模型VLM,兼顾长上下文与高分辨率
写在前面:一起读多模态大模型Kimi-VL
Moonshot AI 推出了 Kimi-VL,一个高效的、开源的、基于混合专家(MoE)架构的视觉语言模型。Kimi-VL 旨在解决上述痛点,它具备以下几个核心特点:
- 高效 MoE 架构:语言解码器采用 MoE 架构,在保持强大能力的同时,显著降低了推理时的激活参数量(仅激活 2.8B 参数),提高了效率。
- 原生高分辨率视觉编码:引入 MoonViT 视觉编码器,能够原生处理不同分辨率的图像输入,无需复杂的分割拼接。
- 长上下文理解:支持 128K 的上下文窗口,能够处理长视频和长文档。
- 强大的推理能力:不仅在标准 VLM 基准上表现出色,还推出了 Kimi-VL-Th