腾讯研究院AI速递 20251010(腾讯ai研究院待遇) #科技 #用户 #能力 #速递 #Altman #模型

生成式AI

一、 Gemini 2.5 Computer Use发布，让AI直接操作浏览器

1. 谷歌DeepMind发布Gemini 2.5 Computer Use模型，类似OpenAI的CUA，能让AI直接控制用户浏览器执行点击、滚动和输入等操作；

2. 该模型在相关基准测试中性能达到SOTA水平，使用效率高于竞品，特别在多步骤、长时间、跨标签页任务上表现突出；

3. Google为该模型内置多层安全机制，包括逐步安全服务和系统指令约束，开发者已可通过Google AI Studio和Vertex AI的Gemini API获取该能力。

二、硬刚Sora 2，马斯克xAI发布视频生成模型Imagine v0.9

1. 马斯克旗下xAI推出视频生成模型Imagine v0.9并向所有用户免费开放，相比初代版本在视觉质量、动作和音频生成方面有所提升；

2. 该模型视频生成时间不到20秒，支持语音优先界面，能生成6秒左右视频，用户可通过添加自然对话、动态相机📷️效果等创建电影级效果；

3. 与Sora 2相比，Imagine v0.9在文字理解准确性方面仍有缺陷，不提示深度伪造风险，目前不支持中文，曾参与『英伟达』世界基础模型Cosmos研发的何宜晖也加入此项目。

三、蚂蚁集团发布并开源万亿参数通用语言大模型 Ling-1T

1. 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T，采用自研高效MoE架构，虽总参数达1T，但推理时仅激活约50B参数，兼顾强推理能力与高效计算；

2. 在多项基准测试中表现亮眼，编程与数学推理能力出众，LiveCodeBench得分最高，数学Omni-Math与UGMathBench双双突破74分，支持128K上下文；

3. 模型训练采用三阶段精英教育路径，使用20T+高推理密度数据，并通过原生FP8混合精度训练平台和自研WSM调度器，实现性能大幅提升，同时已支持线上体验。

四、最新的混元图像3.0，已在元宝App上线！用法示例

1. 腾讯推出混元图像3.0，已登陆元宝App，用户切换至"Hunyuan"模型即可使用，能通过一句话生成风格统一的内容；

2. 新版本具备更丰富的细节和更细腻的画质，支持表情包组图、四格漫画、图文设计、模型三视图和写实摄影等多种创作风格；

3. 生成内容包括各种风格表情包(如像素风、Q版)、情节连贯的四格漫画、创意海报设计、3D模型三视图以及细节逼真的写实摄影，满足用户多样化创作需求。

五、以色列创企开源3B模型,性能碾压谷歌Gemma 3-4B?

1. 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B，可在手机端运行，性能对标Gemma 3-4B等竞品；

2. 采用混合SSM-Transformer架构，支持256K上下文窗口最高可处理1M token，效率比竞品提升2-5倍，长文本处理时性能损耗极小；

3. 获Apache 2.0许可支持设备端部署，在M3 MacBook Pro上每秒生成40个token，40%-70%的AI任务可通过此类小模型处理，成本降低10-30倍。

前沿科技

六、 2025年诺贝尔化学奖，金属有机框架（MOF）材料领域

1. 2025年诺贝尔化学奖授予北川进（Susumu Kitagawa）、Richard Robson和Omar M. Yaghi三位科学家，表彰他们"在金属有机框架（MOF）材料发展方面的贡献"；

2. 获奖者们构建了一种被称为金属有机框架的分子结构，内部拥有巨大空腔，能让气体和其他化学物质进出流通，已构建出数万种不同类型的MOF材料；

3. 这些材料能从水中分离PFAS物质、分解环境药物残留、捕获二氧化碳、从沙漠空气中采集水分，有望为解决人类面临的多种严峻环境挑战做出贡献。

报告观点

七、 Sam Altman 新采访：垂直整合AGI帝国，Sora和能源

2. Sora等产品发布旨在推动社会与技术"协同进化"，让人类提前适应AI革命，Altman预测未来2年内AI将在科学发现领域扮演关键角色，促进科学大爆发；

八、拆解Figure：从实验室到量产，部署才是"卡脖子"关键

1. 具身智能公司Figure宣布获得10亿美元💵C轮融资，估值390亿美元💵，投资方包括NVIDIA、Salesforce和T-Mobile等，目标是将人形『机器人』️规模化部署到家庭和商业场景；

2. 『机器人』️行业专家指出，真正具备商业落地能力、完整技术栈和大规模部署能力的公司非常少，部署而非制造才是"卡脖子"环节，现阶段距达标的关键KPI仍有距离；

3. 专家预计家庭场景大规模部署至少需7-12年，短期内商业市场更具吸引力，Salesforce和Brookfield等战略投资者的加入可能预示着人形『机器人』️领域将出现"平台级"商业打法。

九、谷歌大神发布《智能体设计模式》，AI Agent开发的秘籍

1. 谷歌资深工程主管Antonio Gulli发布《智能体设计模式》一书，系统总结AI Agent开发领域的21个关键设计模式，并已开放免费在线阅读；

2. 该书从提示链、路由、并行化等基础开始，逐步深入记忆管理、多智能体协作、安全护栏等高级主题，全书400多页，提供详实代码示例；

3. 作者使用LangChain、LangGraph、Crew AI和Google ADK等主流框架作为实践平台，展示如何在不同"技术画布"上实现这些设计模式，强调实用性和可落地性。

👇加入AGI数据库，AI智能问答

腾讯研究院AI速递 20251010(腾讯ai研究院待遇)

猜你喜欢

中国自研“AI孔明”制药平台在京发布

甄嬛传鬼畜爆火，这款游戏里也能玩出魔性操作(甄嬛传鬼畜爆火是哪一集)

是技术限制还是战略放弃？iPhone 17 Pro系列被曝取消夜景人像功能(技术受限于什么服务于什么)

全球首艘自主航行集装箱船试航成功(首艘自主建造的国产航母)

伟创力通过完全集成的预制系统加速『数据中心』部署(伟创力workday)