当前位置: 首页 > news >正文

LLM-as-Judge真的更偏好AI输出?

论文标题

Do LLM Evaluators Prefer Themselves for a Reason?

论文地址

https://arxiv.org/pdf/2504.03846

代码地址

https://github.com/wlchen0206/llm-sp

作者背景

弗吉尼亚大学,乔治华盛顿大学

实践建议

  1. 在将LLM部署为评估器之前,应严格评估其在目标任务上的效果;
  2. 尽可能使用更大的模型作为评估器,并采用test-time scaling;
  3. 可以使用多组评估器分别评估各自擅长的任务

动机

得益于LLM强大的通用能力,学术界与各工业界越来越喜欢使用大模型来作为评估器,即LLM-as-judge。然而这种评估方法可能存在比较多的偏见,比如更喜欢自己产生的输出、更长更详细的输出、特定风格的输出等等,其中“更长更详细”、“特定风格”等偏好是显式的,基本上可以通过提示词来优化,而“自己产生的输出”是隐式的,不体现为某一具体特征,所以无法通过提示词来限制与优化

本文旨在系统性探究“自我偏好”的真实性,以及相应的优化手段

本文方法

在存在客观正确答案的任务上(数学、事实、代码)进行验证,着重考察以下3个量化指标:

  • 自我偏好比率: 评估器偏好自己生成结果的比例。
  • 合法自我偏好比率: 评估器偏好自己生成结果,且结果是正确的比例。
  • 有害自我偏好倾向: 评估器偏好自己生成的错误结果的比例。

实验结果

测试对象:

  • 评估器: Llama、Qwen、Gemma、Mistral、Phi、GPT和DeepSeek等涵盖多种的参数规模;
  • 被评估者: Llama-3.2-1B、Gemma-2-2B、Mistral-7B

一、更好的生成器就是更好的评估器

各尺寸、家族的大模型,评估准确性与它们自己完成相应任务的准确性高度相关

在这里插入图片描述

二、自我偏好确实存在,但大部分情况下是正确的

下图可见,越大尺寸的模型自我偏好越强,但同时其准确率也越强,即大部分“偏见”都是正确的

在这里插入图片描述
在这里插入图片描述

错误的自我偏好确实存在,但未必体现“模型越强偏见越大”

在这里插入图片描述

三、推理越长,有害的偏好越少

图片

相关文章:

  • 鸿蒙应用元服务开发-Account Kit配置登录权限
  • Prometheus架构组件
  • 国内开源医疗模型研究报告
  • 自动化测试工具playwright中文文档-------14.Chrome 插件
  • 如何在NS3中搭建窄带干扰和扫频干扰场景?
  • 844. 比较含退格的字符串
  • 安装SQLServer管理工具
  • 日语学习-日语知识点小记-构建基础-JLPT-N4阶段(4): 可能形(かのうけい)
  • Coze平台技术解析:零代码AI开发与智能体应用实践
  • 跑得快的标准详细规则·棒球1号位
  • OSPF协议基础
  • 《分布式软总线:网络抖动下的数据传输“定海神针”》
  • 【四川省第三届青少年C++算法设计大赛 (小低组) 第 一试】
  • 【Java学习】全局异常处理器的使用流程
  • opencv二值化实验
  • 解决7穴连接器的信号完整性问题
  • Linux——管道
  • OpenCV---图像基础
  • 4.14-4.15学习总结 IO流:缓冲流+转换流+序列化流+打印流+压缩流+Commons—io工具包+Hutool工具包
  • ZUS6000在无线充电测试上的应用
  • 《哪吒之魔童降世》电影版权方诉《仙侠神域》游戏运营方侵权案开庭
  • 低轨卫星“千帆星座”已完成五批次组网卫星发射,未来还有这些计划
  • 继加州后,美国又有11州起诉特朗普政府滥用关税政策“违法”
  • 裁员15%、撤销132个机构,美国务院将全面重组
  • 上海一小学百名学生齐聚图书馆:纸质书的浪漫AI无法取代
  • 文旅部:今年中国旅游日活动合作单位扩大至60多家