vLLM专题(六)-Pooling模型
vLLM 还支持池化模型,包括嵌入、重排序和奖励模型。
在 vLLM 中,池化模型实现了 VllmModelForPooling 接口。这些模型使用 Pooler 提取输入的最终隐藏状态,然后返回结果。
注意
我们目前支持池化模型主要是出于方便考虑。如兼容性矩阵所示,大多数 vLLM 功能不适用于池化模型,因为它们仅在生成或解码阶段工作,因此性能提升可能不会很大。
对于池化模型,我们支持以下 --task
选项。选择的选项将设置默认的池化器,用于提取最终的隐藏状态:
- 默认的池化器始终由模型定义。
注意
如果模型在 vLLM 中定义了自己的池化器,则默认池化器将设置为该池化器,而不是表中指定的池化器。
在加载 Sentence Transformers 模型时,我们会根据其 Sentence Transformers 配置文件(modules.json)尝试覆盖默认的池化器。