一个资深用户的真实体验:文心X1挺让人失望

日前,百度正式发布文心大模型4.5及文心大模型X1,在文心一言官网即可免费使用。

据百度相关负责人介绍,文心大模型X1为深度思考模型,具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。

这一一消息很让人振奋。振奋的原因有二:

一是作为国内最早紧跟ChatGPT潮流率先发布通用语言大模型的厂商,百度此次虽然后知后觉,在国内已涌现出不少优秀深度推理大模型的情况下才推出自家的思考大模型,有点姗姗来迟的味道,但毕竟有胜于无,没有错失推理大模型这波潮流。

二是文心X1的出现,再度丰富了国产深度大模型市场。2023年,自OpenAI扔出o1,首次将推理大模型及长思维链的概念普及给普通民众后,全球大模型市场闻风而动,涌现出不少同类产品。

远的不说,仅说国内,自年后以来就陆续发布了包括科大讯飞星火X1和『DeepSeek』等在内的深度推理大模型,并凭借出色的能效比,引发全球瞩目。文心X1的发布,无疑使得国产深度推理大模型阵营更加庞大。

于是对于文心X1的推出,网上一片欢腾。诸如性能可以“比肩『DeepSeek』”、“超越Open AI o1”,“百度厚积薄发,后来者居上”等呼声震耳欲聋,好像文心X1一出,国产深度推理大模型从此雄起了,但事实果真如此?

作为国产大模型的忠实用户,笔者在第一时间测试了文心X1的数学能力。

之所以没有测试文心X1的其他能力,是因为其他能力太泛化了,没有统一的评定标准。

举个简单的例子,所有大模型都可以轻松生成文本,但哪款生成的好,恐怕是一个人一个观点,青菜萝卜各有所好。有人喜欢《红楼梦》,有人喜欢《西游记》,有人喜欢《笑傲江湖》,自然也有人喜欢《盗墓笔记》。

所以普通用户评判一款大模型能力的最好,也是最直接、最有效的方法,就是让它回答有固定答案的问题,比如解答数学题和代码编写。

推理大模型相比于传统语言大模型的最大优点,是具备“长思维链”能力,能够类人思考,这使得它在解答数学题和编写代码,有着通用大模型无可比拟的优势。

也正因为此,OpenAI o1推出伊始至今,反复鼓吹的就是其数学能力,什么奥数试卷的解答正确率达到百分之几,大学数学考卷成绩超过多少学生等。

所以这里的评测,仅限于文心X1的数学。如果在推理大模型本该擅长的数学方面都表现欠佳,那么文心X1的综合能力也就可想而知了。

此次测试试题来自《2024年普通高等学校招生全国统一考试(新高考I卷)》。试题不多,只选了三个。

今日霍州(www.jrhz.info)©️

这题分两小问,正确答案分别为:(1)π/3;(2)2√2。文心X1解答正确。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

该题正确答案是:(1)1/2;(2)x-2y=0或3x-2y-6=0,文心X1给出的答案的(1)正确,(2)错误。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

该题的正确的答案是:(1)证明过程略;(2)√3。文心X1证明出了AD//平面PBC,却在第二小题时栽了跟头,给出了错误答案。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

该题的正确答案是:(1)a=-2;(2)证明过程略;(3)b≥-2/3。文心X1答对了该题。但在解答过程中,表现出下列问题。

今日霍州(www.jrhz.info)©️

一是页面长时间处于假死状态,二十多分钟无反应,多次重新进入文心X1,多次让其重新解答,最终才给出了答案。

今日霍州(www.jrhz.info)©️

二是给出答案时间太长,且忽视了深度推理大模型共同奉行的逻辑推理及验证过程应在思考环节完成,思考成熟后,再给出回复的基本规律,而是在思考完毕,在解答过程中,重新进入了思考、验证过程,导致解题过程很长,无法完整截图,且用时惊人,达到了一个半小时,极大影响了用户的操作体验,也耗尽了耐心。

而同样是这道题,某国产深度推理大模型仅用几分钟就完成了,且答案正确,解题过程简捷、明晰。

今日霍州(www.jrhz.info)©️

同时,对于上面文心X1答错的两道题(16、17题的后一小问),该推理大模型也给出自己的答案,正确率100%,说明文心X1在数学能力上的平庸表现,并不代表当前推理大模型共有水平,而是它自己的水平的确有限。

某国产深度推理大模型解答16题

今日霍州(www.jrhz.info)©️

某国产大模型解答17题

今日霍州(www.jrhz.info)©️

特别声明:[一个资深用户的真实体验:文心X1挺让人失望] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『陈哲远』:酒红锋芒,松弛型格(『陈哲远』走红毯视频)

『陈哲远』用酒红外套🧥与伯爵珠宝的组合,诠释了属于少年的时尚态度:无需刻意张扬,只需在细节处传递质感,在神态中流露情绪,便能让复古与锋芒、清爽与奢华自然共生。 在酒红与白色的碰撞里,在珠宝与廓形的共振中,『陈哲远』用一…

『陈哲远』:酒红锋芒,松弛型格(『陈哲远』走红毯视频)

50岁金巧巧的人生蜕变:从情伤少女到豪门大女主(金巧巧年纪)

反而,她的容貌和气质中散发出一种时光沉淀后的轻盈与自在,令人难以相信她已步入五十岁,状态与年轻艺人毫不逊色。 从《西游记续集》里灵动的孔雀公主,到如今手握资源、身为豪门阔太的金巧巧,她的人生轨迹可谓充满了…

50岁金巧巧的人生蜕变:从情伤少女到豪门大女主(金巧巧年纪)

唯品会特卖节怎么买衣服便宜,实用经验分享(唯品会特卖节什么时候结束)

优惠叠加顺序:唯品会品牌折扣→平台优惠券→支付优惠→淘客鸟联盟返利。 实测案例:一件专柜价899元的碎花连衣裙👗 淘客鸟联盟返利8%:319×8%=25.52元品牌直供、深度折扣、正品保障,再加上淘客鸟联盟额…

唯品会特卖节怎么买衣服便宜,实用经验分享(唯品会特卖节什么时候结束)

沈佳润以亮眼『穿搭』展现活力与个性,体现自信独立风格,诠释时尚与内在态度的结合。(沈佳润个人资料)

沈佳润近日分享的这组新造型确实展现了她充满活力与时尚感的一面!白色短裙与亮红色丝袜的搭配,在视觉上形成鲜明对比,既突出了少女的清新气质,又通过亮色点缀增添了俏皮与个性。这种敢于尝试亮眼配色的『穿搭』,也体现了她逐…

沈佳润以亮眼『穿搭』展现活力与个性,体现自信独立风格,诠释时尚与内在态度的结合。(沈佳润个人资料)

洪晃:如果我老了,也要住到暗无天日的高楼养老院里,那我宁愿死(洪晃金句)

尽管洪晃为父亲联系了更好的养老院,但由于家庭的复杂状况,她始终无法全力以赴地为父亲创造理想的生活环境。在这个快节奏、充满不确定性的时代,或许我们也需要像洪晃一样,理性地审视自己对于生死的态度,去思考什么才是真…

洪晃:如果我老了,也要住到暗无天日的高楼养老院里,那我宁愿死(洪晃金句)