GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

iPad淘宝卖家攻略:轻松开启移动办公新纪元📱💼(淘宝平板店铺)

你是否梦想过随时随地都能管理自己的淘宝店铺?iPad的便携性和强大功能使其成为淘宝卖家的理想工具。本文将详细介绍如何利用iPad高效管理淘宝店铺,包括设置、应用推荐、日常操作技巧等,帮助你实现移动办公的梦想!📱💼

iPad淘宝卖家攻略:轻松开启移动办公新纪元📱💼(淘宝平板店铺)

『徐璐』31岁状态封神!事业攀升却仍未婚,原生家庭成底气(『徐璐』26岁)

在镜头前,她的状态愈加迷人,既拥有少女般的灵动,又散发出成熟女性♀️的独特韵味,仿佛时光在她身上并未留下痕迹,反而愈加深刻她的魅力。接着,在《良辰美景好时光》中,她突破了传统角色的局限,成功演绎了一位充满元气的歌…

『徐璐』31岁状态封神!事业攀升却仍未婚,原生家庭成底气(『徐璐』26岁)

『易烊千玺』《小小的我》演技获导演协会认可,脑瘫少年角色引共鸣(『易烊千玺』小小的我)

当颁奖嘉宾念出刘春和这个名字时,屏幕上闪现出《小小的我》中那个蜷缩在轮椅上的少年形象,而与台上挺拔、英俊的『易烊千玺』形成了一种奇妙的时空对话,仿佛穿越了时光。导演在后来的采访中透露,影片中有一场雨中爬行的戏,千…

『易烊千玺』《<strong>小小的我</strong>》演技获导演协会认可,脑瘫少年角色引共鸣(『易烊千玺』小小的我)

『张雨绮』塌房连锁反应:杨天真救不了,品牌连夜切割,辽宁春晚紧急换人(『张雨绮』说的塌房是什么)

更致命的是,代孕的指控触碰了法律红线和伦理底线,让人不禁深思。原生家庭破产的经历本该让她更懂得人间疾苦,然而,她却在光鲜的名利场中变成了那个最让她曾经反感的样子——那个可以肆无忌惮谈论28万爱马仕包的豪门阔太…

『张雨绮』塌房连锁反应:杨天真救不了,品牌连夜切割,辽宁春晚紧急换人(『张雨绮』说的塌房是什么)

苏翊鸣晋级大跳台决赛 米兰冬奥预赛佳绩(苏翊鸣晋级大跳台世界杯决赛)

当地时间2月5日,2026年米兰-科尔蒂纳冬奥会单板滑雪🎿男子大跳台预赛在意大利利维尼奥雪上公园举行。中国选手苏翊鸣以172.75分的总成绩位居第四,成功晋级决赛

苏翊鸣晋级大跳台决赛 米兰冬奥预赛佳绩(苏翊鸣晋级大跳台世界杯决赛)