腾讯研究院AI速递 20251010(腾讯ai研究院待遇)

生成式AI

一、 Gemini 2.5 Computer Use发布,让AI直接操作浏览器

1. 谷歌DeepMind发布Gemini 2.5 Computer Use模型,类似OpenAI的CUA,能让AI直接控制用户浏览器执行点击、滚动和输入等操作;

2. 该模型在相关基准测试中性能达到SOTA水平,使用效率高于竞品,特别在多步骤、长时间、跨标签页任务上表现突出;

3. Google为该模型内置多层安全机制,包括逐步安全服务和系统指令约束,开发者已可通过Google AI Studio和Vertex AI的Gemini API获取该能力。

二、 硬刚Sora 2,马斯克xAI发布视频生成模型Imagine v0.9

1. 马斯克旗下xAI推出视频生成模型Imagine v0.9并向所有用户免费开放,相比初代版本在视觉质量、动作和音频生成方面有所提升;

2. 该模型视频生成时间不到20秒,支持语音优先界面,能生成6秒左右视频,用户可通过添加自然对话、动态相机📷️效果等创建电影级效果;

3. 与Sora 2相比,Imagine v0.9在文字理解准确性方面仍有缺陷,不提示深度伪造风险,目前不支持中文,曾参与『英伟达』世界基础模型Cosmos研发的何宜晖也加入此项目。

三、 蚂蚁集团发布并开源万亿参数通用语言大模型 Ling-1T

1. 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T,采用自研高效MoE架构,虽总参数达1T,但推理时仅激活约50B参数,兼顾强推理能力与高效计算;

2. 在多项基准测试中表现亮眼,编程与数学推理能力出众,LiveCodeBench得分最高,数学Omni-Math与UGMathBench双双突破74分,支持128K上下文;

3. 模型训练采用三阶段精英教育路径,使用20T+高推理密度数据,并通过原生FP8混合精度训练平台和自研WSM调度器,实现性能大幅提升,同时已支持线上体验。

四、 最新的混元图像3.0,已在元宝App上线!用法示例

1. 腾讯推出混元图像3.0,已登陆元宝App,用户切换至"Hunyuan"模型即可使用,能通过一句话生成风格统一的内容;

2. 新版本具备更丰富的细节和更细腻的画质,支持表情包组图、四格漫画、图文设计、模型三视图和写实摄影等多种创作风格;

3. 生成内容包括各种风格表情包(如像素风、Q版)、情节连贯的四格漫画、创意海报设计、3D模型三视图以及细节逼真的写实摄影,满足用户多样化创作需求。

五、 以色列创企开源3B模型,性能碾压谷歌Gemma 3-4B?

1. 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B,可在手机端运行,性能对标Gemma 3-4B等竞品;

2. 采用混合SSM-Transformer架构,支持256K上下文窗口最高可处理1M token,效率比竞品提升2-5倍,长文本处理时性能损耗极小;

3. 获Apache 2.0许可支持设备端部署,在M3 MacBook Pro上每秒生成40个token,40%-70%的AI任务可通过此类小模型处理,成本降低10-30倍。

前沿科技

六、 2025年诺贝尔化学奖,金属有机框架(MOF)材料领域

1. 2025年诺贝尔化学奖授予北川进(Susumu Kitagawa)、Richard Robson和Omar M. Yaghi三位科学家,表彰他们"在金属有机框架(MOF)材料发展方面的贡献";

2. 获奖者们构建了一种被称为金属有机框架的分子结构,内部拥有巨大空腔,能让气体和其他化学物质进出流通,已构建出数万种不同类型的MOF材料;

3. 这些材料能从水中分离PFAS物质、分解环境药物残留、捕获二氧化碳、从沙漠空气中采集水分,有望为解决人类面临的多种严峻环境挑战做出贡献。

报告观点

七、 Sam Altman 新采访:垂直整合AGI帝国 ,Sora和能源

2. Sora等产品发布旨在推动社会与技术"协同进化",让人类提前适应AI革命,Altman预测未来2年内AI将在科学发现领域扮演关键角色,促进科学大爆发;

3. OpenAI面临版权©️、能源需求和监管等挑战,Altman认为训练数据应属"合理使用"范畴,预测未来能源格局将由太阳能加储能与核能主导,主张仅对超人水平前沿模型实施严格安全监管。

八、 拆解Figure:从实验室到量产,部署才是"卡脖子"关键

1. 具身智能公司Figure宣布获得10亿美元💵C轮融资,估值390亿美元💵,投资方包括NVIDIA、Salesforce和T-Mobile等,目标是将人形『机器人』️规模化部署到家庭和商业场景;

2. 『机器人』️行业专家指出,真正具备商业落地能力、完整技术栈和大规模部署能力的公司非常少,部署而非制造才是"卡脖子"环节,现阶段距达标的关键KPI仍有距离;

3. 专家预计家庭场景大规模部署至少需7-12年,短期内商业市场更具吸引力,Salesforce和Brookfield等战略投资者的加入可能预示着人形『机器人』️领域将出现"平台级"商业打法。

九、 谷歌大神发布《智能体设计模式》,AI Agent开发的秘籍

1. 谷歌资深工程主管Antonio Gulli发布《智能体设计模式》一书,系统总结AI Agent开发领域的21个关键设计模式,并已开放免费在线阅读;

2. 该书从提示链、路由、并行化等基础开始,逐步深入记忆管理、多智能体协作、安全护栏等高级主题,全书400多页,提供详实代码示例;

3. 作者使用LangChain、LangGraph、Crew AI和Google ADK等主流框架作为实践平台,展示如何在不同"技术画布"上实现这些设计模式,强调实用性和可落地性。

👇加入AGI数据库,AI智能问答

特别声明:[腾讯研究院AI速递 20251010(腾讯ai研究院待遇)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

中国自研“AI孔明”制药平台在京发布

钛媒体App 12月12日消息,非盈利机构全球健康药物研发中心(GHDDI)正式发布了由中国自主研发的AI药物研发平台“AI孔明”,实现了从“靶点结构分析→AI分子生成→药物设计→活性评估→成药性优化”的全流…

中国自研“AI孔明”制药平台在京发布

甄嬛传鬼畜爆火,这款游戏里也能玩出魔性操作(甄嬛传鬼畜爆火是哪一集)

看着弹幕里各种魔性二创刷屏,你手指是不是也跟着屏幕节奏点了点——要是能自己动手,把“本宫不死你永远是妃”玩出更疯的花样,该多带劲?这份想“玩出花样”的雀跃,或许能在《三国:谋定天下》的战场里找到更痛快的出口…

甄嬛传鬼畜爆火,这款游戏里也能玩出魔性操作(甄嬛传鬼畜爆火是哪一集)

是技术限制还是战略放弃?iPhone 17 Pro系列被曝取消夜景人像功能(技术受限于什么服务于什么)

苹果并没有说明为什么iPhone 17 Pro系列会将这个功能砍掉,有分析称苹果可能是认为人像模式下成片率是第一需要考虑的因素,而加入夜景模式的话,曝光时间拉长,有极大概率出现糊片,或者让用户错过抓拍瞬间,…

是技术限制还是战略放弃?iPhone 17 Pro系列被曝取消夜景人像功能(技术受限于什么服务于什么)

全球首艘自主航行集装箱船试航成功(首艘自主建造的国产航母)

这一里程碑式的突破,不仅标志着航运业正式迈入智能化时代,更预示着人类对海洋的探索与利用将迎来全新可能。与传统船舶相比,它最显著的特点就是将船员从复杂的操作中解放出来,让航行过程更加精准高效。自主航行系统能够消…

全球首艘自主航行集装箱船试航成功(首艘自主建造的国产航母)

伟创力通过完全集成的预制系统加速『数据中心』部署(伟创力workday)

在最近与《电源电子新闻》的一次对话中,伟创力关键电源与嵌入式电源事业部总裁Chris Butler 分享了公司新型集成『数据中心』解决方案的详细信息,该方案旨在缩短建设时间、提高效率,并应对由AI工作负载驱动的…

伟创力通过完全集成的预制系统加速『数据中心』部署(伟创力workday)