GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2026马年国潮风手写春联如何挑选?教你选对有创意的新款对联

2026年新春临近,国潮风五字对联成为新年氛围的创意点缀。本文详解如何挑选合适的书法春联,涵盖尺寸、字体、工艺、风格等多个实用选购要素,助您打造有温度的新年氛围。

2026马年国潮风手写春联如何挑选?教你选对有创意的新款对联

李施嬅前任被曝财力雄厚,任名人私教时薪2000元起,坐拥千万物业(李施嬅前男友是谁)

可真正让人心里一沉的,不是那几字,而是盒子背后那座所谓的千万圣诞房:她不喜欢那个地段,名字也不是她的,连保险受益人都没有提到。但镜头一转,回到李施嬅,她那天做了第四次眼部手术,病房外只有助理守着,手机里的未读…

李施嬅前任被曝财力雄厚,任名人私教时薪2000元起,坐拥千万物业(李施嬅前男友是谁)

『安卓』大杯同台竞技,谁是全场MVP?(『安卓』比赛)

实际成像表现中,中焦焦段下小米、荣耀、vivo的细节解析力都十分出众,OPPO表现相对普通。 总的来说,小米妙享背屏设计颇具新意,但影像表现中规中矩;vivo影像实力不俗,OPPO续航表现优秀,二者搭载的天…

『安卓』大杯同台竞技,谁是全场MVP?(『安卓』比赛)

量子通信风口崛起,海能达已提前布局卡位(量子通信科技)

来源:新浪财经 量子科技作为引领未来的战略性技术,始终受到国家层面的高度重视与政策扶持,在国家政策的引导下,量子通信的研发投入持续加大、产业生态不断完善,“产学研用”协同发展格局逐步形成,推动量子技术从实验室…

量子通信风口崛起,海能达已提前布局卡位(量子通信科技)

达式常:独宠妻子一人,至今不愿买车,83岁仍坚持拍戏令人动容(达式常百科)

他最初有些担心母亲会对自己的选择有所不满,但母亲却支持他走自己的路,给了他很多鼓励。 就在上海电影专科学校的岁月里,达式常遇到了王文皓,两人很快成了同班同学。在他声名鹊起的那段时间,许多女性♀️粉丝都为他倾倒…

达式常:独宠妻子一人,至今不愿买车,83岁仍坚持拍戏令人动容(达式常百科)