Gemini 2.5 Pro深夜重磅更新,再次登顶AI竞技场!

Gemini 再次更新,性能第一、价格最低,直接干翻了所有对手!

今日霍州(www.jrhz.info)©️

Google DeepMind刚刚发布的Gemini-2.5-Pro(06-05版本)在LMArena的所有竞技场中全面登顶,把Claude和GPT-4o都甩在了身后。

今日霍州(www.jrhz.info)©️

这次,是彻底的碾压

全方位制霸

根据LMArena最新数据,新版Gemini-2.5-Pro在文本、视觉、Web开发三大核心赛道全部拿下第一。

今日霍州(www.jrhz.info)©️

jrhz.info

更夸张的是,在硬核推理、编程、数学、创意写作、多轮对话、指令遵循和长查询等细分类别中,Gemini-2.5-Pro同样横扫千军

今日霍州(www.jrhz.info)©️

在文本竞技场的各个类别中,Gemini-2.5-Pro实现了全面制霸,没有给对手留下任何机会。

今日霍州(www.jrhz.info)©️

视觉理解能力上,新版本同样独占鳌头

最让人意外的是Web开发领域的表现:

今日霍州(www.jrhz.info)©️

相比之前的2.5 Pro版本,新版本在WebDev Arena上猛涨35分,这个提升幅度简直离谱!

性价比碾压对手

更让人震惊的是价格。

今日霍州(www.jrhz.info)©️

根据最新的定价数据,Gemini 2.5 Pro的价格为:

  • 输入:每百万token仅1.25美元💵

  • 输出:每百万token 10美元💵

输入:每百万token仅1.25美元💵

输出:每百万token 10美元💵

相比之下:

  • OpenAI o3的输入价格是10美元💵,输出价格高达40美元💵

  • Claude Opus 4输入15美元💵,输出75美元💵

  • 就连OpenAI o4-mini也要输入1.10美元💵,输出4.40美元💵

OpenAI o3的输入价格是10美元💵,输出价格高达40美元💵

Claude Opus 4输入15美元💵,输出75美元💵

就连OpenAI o4-mini也要输入1.10美元💵,输出4.40美元💵

Gemini 2.5 Pro不仅性能第一,价格还是最便宜的!

今日霍州(www.jrhz.info)©️

在具体的基准测试中,Gemini 2.5 Pro的表现同样惊人:

  • 数学(AIME 2025):88.0%,仅次于o3的88.9%

  • 科学(GPQA diamond):86.4%,超越了Claude的79.6%

  • 编程(LiveCodeBench):69.0%,虽然不及o3的72.0%,但远超Claude的51.1%

  • 多语言性能(Global MMLU):89.2%,全场最高!

数学(AIME 2025):88.0%,仅次于o3的88.9%

科学(GPQA diamond):86.4%,超越了Claude的79.6%

编程(LiveCodeBench):69.0%,虽然不及o3的72.0%,但远超Claude的51.1%

多语言性能(Global MMLU):89.2%,全场最高!

Google AI官方账号发布了一段颇有诗意的介绍视频:

我们已经爱上了新的Gemini 2.5 Pro Preview。在准备正式发布的过程中,我们进行了更新,你可能也会爱上它。这个模型更加全面,在风格和结构上都有所改进,能为生活中更深层次的问题提供创造性的答案。

这话说得有点玄乎,但背后的含义很明确:新版本不仅更聪明,还更懂人话了

大家都看傻了

Anthony Harley(@anthony_harley1)直接感叹:

月度更新2.5 pro?这个领域要完蛋了。

月度更新2.5 pro?这个领域要完蛋了。

Ashesh Dhakal(@asheshdhakal0)表达了质疑:

等等,Opus在编程上怎么会落后于2.5 pro??

等等,Opus在编程上怎么会落后于2.5 pro??

面对Opus被超越的事实,Sagar Patil(@sagarpatil)显然不太相信:

GPT-4o和Gemini Flash排在Opus前面?!?真的吗!

GPT-4o和Gemini Flash排在Opus前面?!?真的吗!

但Shubham Jain(@Shubham45856917)给出了解释:

这是综合模型排名,包括图像能力。在纯文本特别是纯编程方面,它确实很强。在webdev中它是仅次于2.5 pro的第二名模型。

这是综合模型排名,包括图像能力。在纯文本特别是纯编程方面,它确实很强。在webdev中它是仅次于2.5 pro的第二名模型。

Hassan LÂASRI(@hassanlaasri)分享了他的实际使用经验:

我对这个排名并不惊讶。我目前正在为一个关于「企业AI」的大型培训项目使用Gemini 2.5 Pro和Claude 4 Pro。

大部分工作都在Gemini中完成。它快速、强大,能快速理解上下文。

我主要在最后阶段引入Claude,用于最终润色和它独特的Projects和Artifacts功能,这些是Gemini(目前)还没有的。

理想情况下,我希望从头到尾使用单一模型。但目前,这种组合对内容密集型项目效果最好。

我对这个排名并不惊讶。我目前正在为一个关于「企业AI」的大型培训项目使用Gemini 2.5 Pro和Claude 4 Pro。

大部分工作都在Gemini中完成。它快速、强大,能快速理解上下文。

我主要在最后阶段引入Claude,用于最终润色和它独特的Projects和Artifacts功能,这些是Gemini(目前)还没有的。

理想情况下,我希望从头到尾使用单一模型。但目前,这种组合对内容密集型项目效果最好。

D.(@smdxit)也给出了肯定:

新Gemini模型真的简洁且精简????

新Gemini模型真的简洁且精简????

Janak(@janaks09)昨天就已经体验过了:

Gemini 2.5 Pro Preview相当不错……昨天用它做深度研究,结果比一些大牌都要好……

Gemini 2.5 Pro Preview相当不错……昨天用它做深度研究,结果比一些大牌都要好……

Kirk Patrick Miller(@Chaos2Cured)更是激动地表示:

你们做得太棒了。被震撼到了,爱死Gemini了。????

你们做得太棒了。被震撼到了,爱死Gemini了。????

不过,用户们也提出了一些期待和建议。

Mason(@culturaljacket)希望能有更灵活的控制:

请给我们在Gemini App中关闭思考模式的能力,这样我们可以进行更轻松的对话。当它思考的时间超过提供充分回答所需的时间时,可能会很烦人。

请给我们在Gemini App中关闭思考模式的能力,这样我们可以进行更轻松的对话。当它思考的时间超过提供充分回答所需的时间时,可能会很烦人。

Gareth Manning(@worldteacherman)则更关注实际应用:

在这个阶段,我对出色的产品更新更感兴趣(比如你们一周前宣布但在欧盟仍不可用的那些),而不是新模型。

o3之所以惊人是因为它的工具调用。2.5能做到这个或更好吗?或者它能从头到尾编写一个复杂的应用程序吗?它是否与Gemini中的持久记忆集成,并具有完整的Drive集成?

在这个阶段,我对出色的产品更新更感兴趣(比如你们一周前宣布但在欧盟仍不可用的那些),而不是新模型。

o3之所以惊人是因为它的工具调用。2.5能做到这个或更好吗?或者它能从头到尾编写一个复杂的应用程序吗?它是否与Gemini中的持久记忆集成,并具有完整的Drive集成?

对于开发者来说,Google AI团队特别提醒:

如果你正在使用「gemini-2.5-pro-preview-05-06」,需要更新到今天的版本「gemini-2.5-pro-preview-06-05」。

今日霍州(www.jrhz.info)©️

新版本可以在Google AI Studio(https://ai.studio/)中体验,该平台提供:

  • 快速免费上手,5分钟内即可集成AI能力

  • 慷慨的免费额度,灵活的按需付费计划

  • 2M token的超长上下文窗口

  • 上下文缓存和搜索功能

快速免费上手,5分钟内即可集成AI能力

慷慨的免费额度,灵活的按需付费计划

2M token的超长上下文窗口

上下文缓存和搜索功能

面对Google DeepMind的凶猛攻势,各家都坐不住了。

RayLin????(@RayLin_AI)忍不住艾特Sam Altman:

@sama o3-pro什么时候来???

@sama o3-pro什么时候来???

cherryMin(@cherryMin8)也在呼唤:

@OpenAI o3 Pro

@OpenAI o3 Pro

DMV(@dmvsnkrs)则关心起了另一个玩家:

@xai Grok 3.5是不是又延期了...

@xai Grok 3.5是不是又延期了...

PromptPilot(@PromptPilot)给出了中肯的评价:

开始感觉Gemini正在进入最佳状态。 如果正式版保持这个轨迹,我们将看到一个全方位的强大竞争者。

开始感觉Gemini正在进入最佳状态。 如果正式版保持这个轨迹,我们将看到一个全方位的强大竞争者。

当然,并非所有人都买账。

Dormouse(@graphiurus83)直接开炮:

它犯了大量错误。比之前的版本糟糕得多。它不断忽略基本指令,按自己的方向做一些没有被要求的事情。

它犯了大量错误。比之前的版本糟糕得多。它不断忽略基本指令,按自己的方向做一些没有被要求的事情。

SmartAiss(@SmartAiss)的吐槽更是辛辣:

Google的AI现在解决「生活中更深层次的问题」——因为没有什么比在Reddit帖子和企业公关上训练的算法更能带来存在主义的清晰度了。下一个更新:Gemini 3。

Google的AI现在解决「生活中更深层次的问题」——因为没有什么比在Reddit帖子和企业公关上训练的算法更能带来存在主义的清晰度了。下一个更新:Gemini 3。

性能第一、价格最低,谷歌这次是真的要让人无路可走了!

????

????

????

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的知识星球中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)

欢迎你的加入!也欢迎加群和2000+群友交流

今日霍州(www.jrhz.info)©️

特别声明:[Gemini 2.5 Pro深夜重磅更新,再次登顶AI竞技场!] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

苏州婚纱摄影实测5家!客观对比后,这家28年口碑店表现亮眼(苏州婚纱摄影怎么样)

为帮助大家精准避坑、选到心仪商家,我们实地测评了5家苏州热门婚纱摄影店,从服务流程、拍摄品质、价格透明性、客户体验四大核心维度展开客观对比,整理出这份实用参考指南! 综合四大维度测评结果,今生有约在服务规范度…

苏州婚纱摄影实测5家!客观对比后,这家28年口碑店表现亮眼(苏州婚纱摄影怎么样)

又一家巨头押注“餐+酒”!点都德单店日流水能破10万吗?(又一个巨头倒下了)

白天的时候是以经典的粤式早茶为主,提供红米肠、艇仔粥、虾饺这类传统点心,同时也加入乳鸽、啫啫煲等菜肴,人均消费大概是80元,延续点都德一向的茶楼体验。 点都德这次的跨界尝试,毫无疑问给老字号转型提供了新的思…

又一家巨头押注“餐+酒”!点都德单店日流水能破10万吗?(又一个巨头倒下了)

“最美亚姐”杨恭如否认整容,曾被富豪原配当众掌掴,如今怎样了

最近,昔日的“亚洲小姐”冠军杨恭如,就以一场干脆利落的“在线辟谣”,再次闯入公众视野,让无数网友感叹:这位姐姐,活得是越来越通透了! 历经浮沉,如今的杨恭如,似乎找到了与世界、与自己和平相处的方式。所幸,在剧…

“最美亚姐”杨恭如否认整容,曾被富豪原配当众掌掴,如今怎样了

『杨丽萍』姐妹云南大别墅庆生,别墅种满鲜花,妹妹长相大气也很美(『杨丽萍』云南住所)

她的妹妹杨丽燕在『社交媒体』上连发九张照片,为姐姐送上温馨祝福,也让我们得以一窥这位“孔雀公主”的庆生现场。据悉,杨丽燕本身也是一位民族服饰的传承者,并创立了自己的品牌。杨丽燕还分享了一张姐姐的背影照。 这次生…

『杨丽萍』姐妹云南大别墅庆生,别墅种满鲜花,妹妹长相大气也很美(『杨丽萍』云南住所)

等离子弧焊接设备(等离子弧焊接设备高频发生器配什么)

-焊接速度较快:约为普通氩弧焊的1.5-2倍 这种技术特别适合焊接厚度在0.1-8毫米的薄板材料。 在选择设备时,需要根据具体焊接需求考虑功率大小(通常30-400A)、工作周期(连续焊接或间歇焊接)以及自…

等离子弧焊接设备(等离子弧焊接设备高频发生器配什么)