TeleAI复杂推理大模型达竞赛级数学表现,评分超o1-preview

近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型”TeleAI-t1-preview正式发布,即将上线天翼AI开放平台。TeleAI-t1-preview使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。

早在1500多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。

数学知识的系统性和相互关联性,以及通过推理找到问题根源,是几千年来数学发展的母题。大模型的创新也正在不断与之靠近,用严密的思维链路,摆脱幻觉的怪圈。

评分超o1-preview

达竞赛级数学表现

在美国数学竞赛AIME2024、MATH500两项权威数学基准评测中,TeleAI-t1-preview分别以60和93.8分的成绩,大幅超越OpenAIo1-preview、GPT-4o等标杆模型。在研究生级别问答测试GPQA Diamond中,TeleAI-t1-preview得分超过GPT-4o,并比肩Claude3.5Sonnet的性能水准。

今日霍州(www.jrhz.info)©️

在下面这道2024年全国高中数学竞赛试题中,TeleAI-t1-preview面对三角函数的复杂等式关系,通过多次假设尝试和思路纠偏,将原先的复杂等式抽丝剥茧,转化成简化的方程式,并经过逻辑清晰的公式推导后,最终给出了正确答案。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

可以看出,TeleAI-t1-preview在回答问题时并非只是给出结论,而是把思考和分析过程也完整呈现。这样可以帮助学生在做题过程中深入理解题目背后的逻辑和思考方法。

例如,在一道概率论考研试题中,题目涉及“泊松分布”概念。TeleAI-t1-preview首先对这个概念进行了介绍和解读,然后给出解题思路和最终答案。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

我国古代数学发展历史悠久,流传众多经典著作,但因其文言文表述,通常让人望而却步。不少大模型也会陷入沉思,无法作答。

将《九章算术》中的一道题目给到TeleAI-t1-preview后,它先针对文言文进行了理解和简化,转换成现代汉语,随之给出数学推导和答案。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

在这个过程中,TeleAI-t1-preview还将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。同时,它还严谨地进行了古今单位换算,顺利过关。

如果说数学竞赛和考研题目还能符合人的正常思维方式,那么面对极度“烧脑”的策略推理问题时,以往的大模型往往会答非所问,被绕到“陷阱”中去。

以下面这道问题为例,光是理解游戏规则就已经很难了,更不用说从何下手给出答案了。然而,TeleAI-t1-preview却“眼都没眨一下”就迅速破题,大胆假设,严谨分析。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

TeleAI-t1-preview在解题过程中,列出了对游戏规则的理解、场景道具分析、优劣势分析,并给出解题策略、验证有效性。不仅如此,它还考虑到了可能出现的特殊情况。

创新“训练”策略

保障“推理”有效

人类通向AGI的旅程正在经历一场范式的迭代。当已有的高质量数据正像化石能源一样日渐枯竭时,当人们依然在为大模型的“黑盒”特性而担忧时,复杂推理大模型的重要性日益显著。

针对TeleAI-t1-preview训练的不同阶段,TeleAI引入了创新的训练策略,从而保障思考推理过程准确有效。

数据准备阶段:

收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

Judge Model(评估模型):

训练了一个Judge Model专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

SFT(监督微调)阶段:

用MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用Judge Model对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行SFT训练。

强化学习阶段:

额外构造了Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

直观呈现的思维链将帮助人们更清晰地追踪推理过程,方便验证推理正确性,从而使模型的可解释性和透明度大大提升。

TeleAI将持续在推理模型领域研究探索,让人工智能基于人类的“已知”,推导出期盼得到的“未知”。

特别声明:[TeleAI复杂推理大模型达竞赛级数学表现,评分超o1-preview] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

女子穿JK制服晒大长腿,丈夫睡眼惺忪扶腰路过吐槽:净整没用的!(穿jk制服的女孩子都怎么样)

不知从什么时候开始,时尚界里掀起了一股少女风『穿搭』,其中JK制服更是成了夏季女性♀️人手一套的标配,仿佛无论什么年龄段的女人都想要成为元气满满的少女。 河南一女子就在某『社交平台』上晒出了一段自己穿JK制服的美妆照片意…

女子穿JK制服晒大长腿,丈夫睡眼惺忪扶腰路过吐槽:净整没用的!(穿jk制服的女孩子都怎么样)

全家移民真相大白六月后,再看『邓超』『孙俪』传来好消息,一点都不意外(全家美国移民)

担纲影片中文配音的『孙俪』与『邓超』,以一袭全黑造型携手亮相,气场全开,颇有电影中“史密斯夫妇”的默契与风范。不料下一秒,『孙俪』便笑着对在场媒体透露,两人在片中配音的角色正是夫妻。 首映礼的现场照片流出后,网友们纷纷…

全家移民真相大白六月后,再看『邓超』『孙俪』传来好消息,一点都不意外(全家美国移民)

人民币又大涨 汇率创近期新高(人民币又大涨)

12月15日,人民币对美元💵汇率显著走强,离岸人民币于盘中升破7.05,在岸、离岸人民币汇率均达到去年10月中旬以来的高点。自11月下旬以来,随着美元💵指数走软,人民币汇率逐步升高,目前离岸人民币和在岸人民币汇率均在7.05附近运行

人民币又大涨 汇率创近期新高(人民币又大涨)

闪光粉怎么用最安全?2025年新手必看避坑指南(闪光粉可以用来干什么)

闪光粉如何正确使用才能避免安全隐患和效果不佳?本文详解2025年最新操作规范,提供实用步骤、风险提醒与避坑清单,助你科学利用闪光粉。 闪光粉使用需注意剂量控制、环境选择和操作流程。建议在通风良好处使用,远离火源,并遵循产品说明书要求,确保安

闪光粉怎么用最安全?2025年新手必看避坑指南(闪光粉可以用来干什么)

『伊能静』夫妻俩一起录节目,保养得比『秦昊』还年轻,像小女人(『伊能静』夫妻相处之道)

原来,她正与丈夫『秦昊』一同录制节目。 这让人想起『伊能静』曾抱怨『秦昊』不够浪漫,而『秦昊』的直男式回应堪称经典:“我赚钱养家不就是浪漫?” 与『伊能静』在一起前,『秦昊』的演艺事业不温不火。最初引发热议的年龄差与感情生活,如今反…

『伊能静』夫妻俩一起录节目,保养得比『秦昊』还年轻,像小女人(『伊能静』夫妻相处之道)