苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

今日霍州(www.jrhz.info)©️

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、『DeepSeek』-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

今日霍州(www.jrhz.info)©️

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。

研究团队提出,模型表现可分为三个阶段:

  • 低复杂度任务:传统大模型( 注:如 Claude-3.7 无思维版本)表现更佳;
  • 中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;
  • 高复杂度任务:两类模型均陷入完全失效状态。

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”

参考资料:

特别声明:[苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

偷鸡不成蚀把米?33岁影后『周冬雨』,终于为自己的行为付出了代价(偷鸡不成蚀把米拼音)

谁能想到,这位曾在影坛风头无两的三金影后,却在巅峰时刻急速下滑,口碑与资源接连受挫,原本光辉无限的事业轨迹,一步步滑向深渊。就这样,谋女郎的光环让她在出道的那一刻便站在了巅峰。2016年,她在《七月与安生》中…

偷鸡不成蚀把米?33岁影后『周冬雨』,终于为自己的行为付出了代价(偷鸡不成蚀把米拼音)

鹤唳华亭》阿宝不仅仅是萧定权早逝妹妹的乳名这么简单(鹤唳华亭电视剧免费观看完整版)

舅舅一直叫他阿宝,即使他成为太子后,这个称呼也逐渐变得稀少,但在萧定权心中,舅舅是最值得信赖的人,是他唯一可以依靠的支柱。在原著小说中,陆文昔最初的身份是顾阿宝,她原本是浣衣房的一名侍女,通过与萧定权的冲突,…

《<strong>鹤唳华亭</strong>》阿宝不仅仅是萧定权早逝妹妹的乳名这么简单(鹤唳华亭电视剧免费观看完整版)

黄仁勋否认对OpenAI不满,称非常喜欢与萨姆共事(黄仁勋承认自己是中国人吗)

来源:格隆汇APP 格隆汇1月31日|有报道称,『英伟达』CEO黄仁勋私下批评了他所描述的OpenAI缺乏纪律的经营方式,并对OpenAI面临的来自谷歌和Anthropic等公司的竞争表示担忧。黄仁勋对此表示,对…

黄仁勋否认对OpenAI不满,称非常喜欢与萨姆共事(黄仁勋承认自己是中国人吗)

2026最新严选 |bilibili转文字专业必备工具TOP5排行榜(严选商城官网下载)

测试数据显示,1小时带背景音的B站视频。 比如1小时的访谈内容,转写+整理只要2分钟。 但转写速度慢,1小时内容要3分10秒。我找了B站一条1小时20分的科技类解说视频。 直接就能用来做二次创作的素材,省…

2026最新严选 |bilibili转文字专业必备工具TOP5排行榜(严选商城官网下载)

2026年龙门路轨式大幅面激光切割机厂家推荐:高效精准切割,工业制造升级首选装备(龙门轨道安装图)

推荐理由: ① 欧系技术基因:引进并消化吸收了意大利在激光切割机床设计与制造方面的先进经验,设备在精度、稳定性和人性化设计上有独特之处。无论是选择像江苏锐凌焊割科技这样提供多工艺综合解决方案的服务商,还是选…

2026年龙门路轨式大幅面激光切割机厂家推荐:高效精准切割,工业制造升级首选装备(龙门轨道安装图)