GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

伊朗启动紧急措施“备战”(伊朗突袭)

德黑兰消息:据媒体报道,伊朗总统佩泽希齐扬27日已启动紧急措施,一旦美国或以色列对伊朗发起新的袭击,将保障生活必需品供应,同时确保政府机构运转。佩泽希齐扬在27日与边境省份负责人的会议上说,“我们正将权限下放至各省,省长

伊朗启动紧急措施“备战”(伊朗突袭)

腊肠扎孔针好用吗?教你轻松给腊肠扎孔排气的实用技巧(腊香肠要扎多少小孔)

腊肠扎孔针看似小工具,却能有效提升腊肠制作质量,帮助排气、透气和入味。本文详细介绍腊肠扎孔针的作用原理、使用方法、选购要点,教您如何选择最适合的香肠排气针,轻松完成美味腊肠制作。无论是家用制作还是小型餐饮,掌握正确使用方法都必不可少。了解这

腊肠扎孔针好用吗?教你轻松给腊肠扎孔排气的实用技巧(腊香肠要扎多少小孔)

李微漪发亲笔手写长信泪痕明显 回应《重返·狼群》重映争议(李微漪介绍)

很多人再次被影片中的故事所打动,特别是李微漪与格林狼王的深情连接,唤起了无数人的共鸣。 就在同一天,李微漪在『社交平台』上发布了一篇长文《微漪写给朋友们的信》,在文中,她直面了流量带给野生动物保护区的困扰,并…

李微漪发亲笔手写长信泪痕明显 回应《<strong>重返·狼群</strong>》重映争议(李微漪介绍)

日本《电影旬报》2025年十佳片!《九龙城寨》《F1》入围(日本电影旬报奖历届)

日影十佳电影中,沈恩敬、堤真一主演的《旅途中的日子》名列第一名,代表日本申请奥斯卡的《国宝》其次,《》《普通的孩子》《宝岛》进入前五名! 其他入围前十名的还有《愚者的身份》《我是桐岛》《去海边的路》《最爱…

日本《<strong>电影旬报</strong>》2025年十佳片!《<strong>九龙城寨</strong>》《<strong>F1</strong>》入围(日本电影旬报奖历届)

午后固态电池概念再度拉升,科森科技、鼎胜新材涨停 多股跟涨态势明显(固态电池布局 谁已悄悄领先)

午后,固态电池概念再度拉升,科森科技和鼎胜新材涨停。在此之前,杉杉股份和百利科技也已涨停,恩捷股份、佛塑科技、湖南裕能、华自科技等股票跟涨

午后固态电池概念再度拉升,科森科技、鼎胜新材涨停 多股跟涨态势明显(固态电池布局 谁已悄悄领先)