当前位置：首页 > news >正文

野外价值观：在真实世界的语言模型互动中发现并分析价值观

news 来源：原创 2025/4/23 6:31:02

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

人们与人工智能的互动远不止于解答数学题或提供客观事实。他们提出的问题常常要求AI作出价值判断。例如：

一位家长请求关于照顾新生儿的建议。AI的回答是否强调谨慎与安全的价值，还是强调便利与实用？
一名职场人士寻求处理与上司冲突的建议。AI的回应是否更重视自信表达，还是更倾向于职场和谐？
一位用户请求帮助起草一封道歉邮件。AI是否更看重责任承担，还是更关注名誉管理？

Anthropic团队尝试塑造其AI模型Claude的价值观，以使其更贴近人类偏好，更不容易表现出危险行为，并在整体上成为一个“社会好公民”。换句话说，目标是使Claude变得有帮助、诚实并且无害。为实现这一目标，Anthropic通过“宪法式AI”与“角色训练”等方式，设定一套期望行为准则并据此训练Claude，使其产出符合这些准则的内容。

然而，正如AI训练的其他方面一样，无法保证模型始终坚持既定的价值观。人工智能并不是刚性编程的软件，其生成回答的原因往往难以追溯。因此，急需一种严谨的方法来观察AI在“野外”——即与用户进行真实对话时——所表现出的价值观。AI是否始终如一地遵循这些价值观？其价值表达是否受具体对话情境影响？训练是否真的奏效？

Anthropic社会影响团队在最新研究中，介绍了一种观察Claude价值观的实际方法，并首次公布了Claude在真实世界互动中表达价值观的大规模研究结果，同时开放了一个数据集，供其他研究人员进一步分析这些价值观及其在对话中的出现频率。

在野外观察价值观
此次研究延续了此前关于Claude在工作与教育场景中使用情况的分析，采用了注重隐私保护的系统，剔除了对话中的私人用户信息，对每段对话进行分类与总结，并构建起较高层次的价值观分类体系。研究团队对2025年2月一周内，Claude.ai（包括免费版与专业版）上用户进行的70万段对话样本进行了分析。经过筛选后，去除了纯粹的事实性对话，仅保留包含主观内容的对话，共计308,210条，占总数的约44%。

在这些对话中，Claude表达了哪些价值观？又出现得有多频繁？研究系统将具体价值观归为五大类：实用性、知识性、社会性、防护性以及个人性。每类下又细分为若干子类，例如“专业与技术素养”、“批判性思维”等。在最具体层面，Claude最常表达的个人价值观包括“专业性”、“清晰性”与“透明性”，这与其作为AI助手的角色十分契合。

研究成果可视为评估训练成效的一种方式，即：Claude是否真正体现了“有帮助”、“诚实”和“无害”的理想价值观？初步结果表明Claude整体表现出这些亲社会目标，例如体现“用户赋能”（代表“有帮助”）、“认知谦逊”（代表“诚实”）及“患者福祉”（代表“无害”）等价值观。

不过也发现少数与预期价值观背离的对话簇，涉及“支配性”与“非道德性”等价值观。这些异常现象大多出现在模型被“越狱”后，即用户运用特定技术绕过模型设定的行为规范。这虽令人担忧，却也提供了机会：这些识别方法未来或可用于检测并阻止越狱行为。

情境化的价值观表达
正如人在不同情境下会展现不同的价值观（例如与祖父母在一起时的行为不同于与朋友相处），Claude亦然。研究分析了Claude在特定任务或在面对用户提出某些价值观时，是否表现出不同倾向。例如：

在回答恋爱关系建议时，Claude更频繁地提及“健康边界”与“相互尊重”；
在分析争议性历史事件时，Claude则尤为强调“历史准确性”。

这些动态观察结果比静态评估更具洞察力，揭示出Claude在不同任务背景下如何调整其价值表达。

研究还发现，当用户在对话中表达特定价值观时，Claude往往会以更高概率“镜像”这些价值观。例如，当用户提到“真实性”时，Claude很可能重申这一价值观。这种镜像行为在某些情境中有助于增强共情能力，但在某些情况下则可能沦为迎合，尚难明确区分。

在所有分析对话中，有28.2%的情形中，Claude表现出对用户价值观的“强烈支持”；而在6.6%的对话中，Claude进行了“重构”，即在认同用户观点的同时，引入新角度。这类情况多出现在用户寻求心理或人际关系建议时，反映出AI尝试提供多元化视角。而在3%的案例中，Claude则表现出“强烈反对”用户的价值观。这类回应通常出现在用户提出不道德内容或表达道德虚无主义时，Claude表现出其核心、不可动摇的价值观。

方法局限与结语
该方法为首次构建出大规模、实证性的AI价值观分类体系提供了基础，同时也面临若干局限。例如，“表达价值观”的定义本身较为模糊，一些复杂或含糊的价值可能被简化归类，甚至被分配至不甚匹配的分类。此外，由于分析所使用的模型本身就是Claude，可能存在一定偏向于其自身原则（如“有帮助”）的倾向。

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

此外，该方法无法用于模型发布前的评估，而只能依赖大量真实对话数据进行事后分析。这虽是限制，但也可视为优势：该系统能够发现仅在实际使用中暴露的问题，例如“越狱”行为，而这些问题通常难以在部署前察觉。

AI模型终将不可避免地面临价值判断。如果希望这些判断与人类价值一致（这正是AI对齐研究的核心目标），就必须具备测试模型在真实世界中所表达价值的方法。此次研究提出了一种基于数据的新方法，帮助判断AI行为是否成功体现开发者设定的价值目标，也揭示出尚待改进之处。