【青鸟飞扬教育】OIBench 篇(青鸟飞娱)

今日霍州(www.jrhz.info)©️

背景:评测集局限性的深层分析

尽管 GPT-4o 模型被冠以 "竞赛级" 头衔,甚至有声音称其算法水平接近 ACM 区域赛金牌🥇选手,但实际在面对未经大量公开数据训练的、更高难度的信息学奥赛级别问题时,其通过率却往往低至个位数,与 985 级别高校 ACM 校队成员的平均通过率存在显著差距。

当部分评测宣称 Claude 3.5 Sonnet 可替代中级开发人员时,它在动态规划等高难度题型中错误率却高达 80% 以上,且无法独立完成需数学建模的复杂竞赛题。

诸如文心一言、『通义千问』等模型在 MBPP 基础题库中通过率可达 90% 以上,但移植至 Codeforces Div.2 C 级题目时,通过率却不足 15%,远低于人类选手平均 70% 的水平。

这些鲜明的对比,共同指向一个核心问题:当前对 LLM 编程能力的评估,存在明显的 "宣传与现实的认知鸿沟"。这种差异不仅源于模型能力边界的复杂性,也暴露出现有评估体系的诸多局限性。具体表现为:

评测集 “饱和” 与区分度不足:传统评测集(如 HumanEval、MBPP)由于模型能力的快速提升,通过率普遍超过 90%,已无法有效区分最先进模型的细微优劣。

数据 “泄漏” 风险: 尽管一些新评测集(如 Codeforces、USACO、LeetCode)引入了高难度题目,但由于大模型预训练数据包含大量『互联网』公开内容,这些题目可能已被模型 “见过”,导致评测结果虚高,无法真实反映其推理能力。

人机对比的局限性:现有基于 Elo 评分体系的模型与真人选手对比方法,存在周期长、选手水平波动大、复现性差等问题,难以提供精确且可靠的评估。

效率指标的粗略性: 部分评测虽引入运行时间、内存等效率指标,但通常仅为粗略的平均分,无法细致反映模型在不同类型题目上的性能差异。

为了解决上述这些评估困境、评测出全球顶尖模型真实的编程能力, Meituan-M17 团队推出了更真实、更具区分度的评估基准 OIBench 数据集,并托管于 AGI-Eval 评测社区,并在 Huggingface 和 GitHub 上开源。基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远,甚至很多模型只有个位数的得分。

今日霍州(www.jrhz.info)©️

特别声明:[【青鸟飞扬教育】OIBench 篇(青鸟飞娱)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

这一夜,当50岁蒋勤勤秒了46岁『章子怡』,才知古典美人的杀伤力

但无论是谁,都难以在红毯上超越蒋勤勤和『章子怡』这两位核心人物。 就像其他琼瑶女郎,『林心如』年轻时灵动可爱,如今49岁依然保持着温婉的气质;陈德容虽然曾因过度减肥而显得老态,但近年来状态逐渐回稳,她那柔和…

这一夜,当50岁蒋勤勤秒了46岁『章子怡』,才知古典美人的杀伤力

“同心筑梦·科普行”西藏青少年科普研学活动精彩图集

1月18日至24日,“同心筑梦·科普行”西藏青少年科普研学活动在北京举办。本次活动由中国科协白家庄办公区联合西藏自治区科学技术协会、西藏自治区教育厅共同主办,中国科学院青藏高原研究所科普基地协办。活动围绕“…

“同心筑梦·科普行”西藏青少年科普研学活动精彩图集

泡脚包哪个牌子比较好?网上买的艾草包泡脚有用吗?十大品牌对比,榜首脱颖而出(泡脚包哪个牌子最受欢迎)

本草寻源艾草泡脚包主打纯蕲艾配方,原料选用陈放1年的湖北蕲艾,拆包可见完整艾叶,无碎渣掺杂,自然香气浓郁,适合追求单一基础暖足需求的人群。 温太医草本泡脚包侧重体寒调理,配方含艾草、干姜、当归三味核心成分,…

泡脚包哪个牌子比较好?网上买的艾草包泡脚有用吗?十大品牌对比,榜首脱颖而出(泡脚包哪个牌子最受欢迎)

章小蕙在国外太敢穿了!一袭蕾丝裙秀出尤物身材,完全没有大婶味(章小蕙 现在)

这条黑裙的设计太有讨论点了,老规矩,先从领口看,脖子处有小小的蝴蝶结🎀,虽然整条裙子👗都为黑面料,但它的出现依旧带来了人人喜欢的层次感。 从领口到裙摆末端,我们都能看到面料之上融入了各种颜色的花纹,所以这条裙子👗…

章小蕙在国外太敢穿了!一袭蕾丝裙秀出尤物身材,完全没有大婶味(章小蕙 现在)

北京亦庄发出全国首个虚拟偶像身份认证 Yuri落户成为数字居民(亦庄昨天确诊一例)

北京经济技术开发区为AI虚拟偶像“Yuri”颁发了全国首个虚拟偶像身份认证,标志着“Yuri”正式成为该区的“数字居民”。未来,“Yuri”将参与区域公共安全宣传和环保倡导等工作。“Yuri”由汗青工作室通过生成式人工智能技术打造

北京亦庄发出全国首个虚拟偶像身份认证 Yuri落户成为数字居民(亦庄昨天确诊一例)