OpenAI研究人员：破解『大语言模型』“幻觉”需从评估指标入手，避免奖励猜测(openjoven研究) #科技 #机制 #语言 #模型 #问题 #OpenAI

在人工智能领域，『大语言模型』的“幻觉”问题长期困扰着行业——这些模型有时会将错误信息当作事实输出，几乎所有主流产品都存在这一缺陷。近日，OpenAI的研究团队在最新论文中提出，该问题的根源在于现有训练机制过度鼓励模型“猜测答案”，而非坦诚表达不确定性。

研究指出，当前模型训练过程中，评估标准更倾向于奖励“自信回答”，即使答案错误也能获得较高分数。这种机制导致模型被优化为“考试型选手”，在面对不确定问题时倾向于猜测而非承认“不知道”。研究人员比喻称，模型如同被迫参加一场永远没有“不确定”选项的考试，而现实世界的问题往往没有绝对正确的答案。

不同模型在这一问题上的表现存在显著差异。OpenAI此前发布的对比数据显示，Claude模型在面对不确定信息时更倾向于拒绝回答，而非给出错误答案。但研究团队同时指出，这种策略虽然降低了幻觉风险，却也导致拒答率过高，可能影响用户实际使用体验。

论文强调，现有评估体系与真实场景需求严重脱节。人类在现实互动中会逐渐学会表达不确定性的价值，但模型依赖的标准化测试却惩罚了“不确定”的回答。研究人员认为，这导致模型始终处于“考试模式”，将复杂问题简化为非黑即白的选择。

“问题的核心在于评估指标的错位。”研究团队提出，必须重新设计评分机制，避免模型因拒绝回答不确定问题而被扣分。当前广泛使用的基于准确率的评估方式需要更新，新的打分体系应当抑制模型“乱猜”的冲动。

OpenAI在配套博文中进一步解释，如果排行榜继续奖励侥幸正确的回答，模型开发者就会持续优化猜测能力，而非提升真实理解水平。研究团队呼吁行业建立更符合现实需求的评估标准，例如引入对不确定性表达的奖励机制，或设计能区分“合理猜测”与“随意回答”的评分模型。

OpenAI研究人员：破解『大语言模型』“幻觉”需从评估指标入手，避免奖励猜测(openjoven研究)