OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”

8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。

Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据 近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。

另一方面,OpenAI 对 Anthropic 的 Claude 模型进行了指令层级、越狱、幻觉和策划能力测试。Claude 模型在指令层级测试中表现良好,在幻觉测试中拒绝提供回答的比例较高。这意味着在不确定性可能导致其回答错误的情况下,Claude 不太可能提供答案

在此前 OpenAI 被指在构建新 GPT 模型时违反 Anthropic 服务条款,使用程序员操作 Claude,导致 Anthropic 本月初禁止 OpenAI 使用其工具的背景下,两家公司开展联合评估的举措颇受关注。不过,随着越来越多批评者和法律专家寻求保护用户,尤其是未成年人的指导方针,AI 工具的安全性正成为更加重要的问题。

参考

特别声明:[OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

我敢打赌,童谣穿这个礼服根本不敢把手放下来,有一说一她是真瘦(我敢打赌用英语怎么说)

观众们看得是她光彩照人,而我看得却是每一位女『明星』️如何把怕走光这三个字写进四肢百骸的细节里。可是,瘦成纸片也有纸片的烦恼:抹胸根本没有肉支撑,只能靠骨头顶着;坐下时,后背的脊椎凸出来两块,像是隐形的拉链,灯光一…

我敢打赌,童谣穿这个礼服根本不敢把手放下来,有一说一她是真瘦(我敢打赌用英语怎么说)

现实中的战狼庄小龙,身高1.5米被特招入伍,『吴京』都怕他(现实中的战狼中队)

在《战狼1》中,有一位真正的中国特种兵,他便是庄小龙,这位小个子却不容忽视的战士,才是真正的战狼。庄小龙不仅在部队表现卓越,还曾赴国际猎人学校进行过艰苦的训练,这所学校以严格和残酷著称,是全球最顶尖的特种兵训…

现实中的战狼庄小龙,身高1.5米被特招入伍,『吴京』都怕他(现实中的战狼中队)

我们喜欢的不是『杨超越』,是平凡人的逆天改命(我们喜欢的不是你足球的巅峰英文)

对于那些已经过得相对富足的人来说,『杨超越』不过是一个没有什么特别才能的新人,唱歌跳舞都不行,凭什么能进入『娱乐圈』️,凭什么享有她的那些光鲜生活?她的舞台上或许充满了不完美的瞬间,甚至出现了一些尴尬的车祸式表演…

我们喜欢的不是『杨超越』,是平凡人的逆天改命(我们喜欢的不是你足球的巅峰英文)

演员张志坚:62岁才大火,娶了忠实女粉丝为妻,活成一股清流(张志坚演技太好了)

在过去几十年的演艺生涯中,张志坚塑造了不少经典角色,但由于他一直保持低调的个性,观众对他并不太了解。此后,他再次在电视剧《人间正道是沧桑》中饰演董建昌一角,凭借出色的演技,让观众对他留下了深刻印象。他说…

演员张志坚:62岁才大火,娶了忠实女粉丝为妻,活成一股清流(张志坚演技太好了)

如何在家制作充满创意的多肉植物微景观?——儿童手工、办公桌解压神器2026年潮流(如何自制充电宝(附图文详细教程))

想打造独特的多肉植物微景观?本文详解材料选择、创意设计与养护要点,轻松实现家庭DIY。无论是给儿童启蒙、美化办公桌面还是缓解压力,都让你事半功倍。适合所有园艺新手,无需复杂工具。

如何在家制作充满创意的多肉植物微景观?——儿童手工、办公桌解压神器2026年潮流(如何自制充电宝(附图文详细教程))