腾讯研究院AI速递 20250818(腾讯研究院官网)

生成式AI

一、 谷歌开源Gemma 3 270M,4个注意力头专为终端而生

1. 谷歌发布轻量级模型Gemma 3 270M,下载仅241MB,拥有2.7亿参数,其中嵌入参数1.7亿个,Transformer模块1亿个;

2. 模型极致节能,在Pixel 9 Pro手机上25次对话仅消耗0.75%电量,INT4量化后可在资源受限设备上高效运行;

3. 在IFEval基准测试上超越Qwen 2.5同级模型,支持高效指令遵循,下载量已突破两亿次,专为特定任务微调设计。

二、 Meta 正式开源了 DINOv3,通用SOTA 级视觉基础模型

1. Meta开源DINOv3视觉基础模型,采用自监督学习,首次全面超越弱监督模型,在多个密集预测任务中表现优于专业解决方案;

2. 模型采用创新的Gram Anchoring策略和旋转位置编码(RoPE),参数规模扩展至70亿,训练数据扩展至17亿张图像;

3. DINOv3商业许可开源,提供多种规模模型系列(含ViT-B、ViT-L等),并专门训练了卫星图像骨干网络,已在环境监测等领域实现实际应用。

三、 腾讯混元3D世界模型推出Lite版,消费级显卡就能跑

1. 腾讯混元推出3D世界模型1.0-Lite版本,大幅降低显存需求至17GB以下,使消费级显卡也能高效运行,显存占用减少35%;

2. 技术突破包括动态FP8量化、SageAttention量化技术和Cache算法加速推理,使模型运行速度提升3倍以上,精度损失小于1%;

3. 用户只需输入一句话或上传一张图片即可生成完整可漫游3D世界,支持360度全景生成和Mesh文件导出,可无缝接入游戏和物理引擎。

四、 昆仑万维发音乐模型Mureka V7.5,一周六款模型总结

1. 昆仑万维在8月11日至15日连续发布六款模型,覆盖视频生成、世界模型、统一多模态、智能体和AI音乐创作等热门领域;

2. 最新音乐模型Mureka V7.5大幅提升中文歌曲音色和咬字表现,通过优化ASR技术增强人声真实性和情感深度,超越国外顶尖音乐模型;

3. 同期还发布了基于MoE的角色描述语音合成框架MoE-TTS,让用户可通过自然语言精准控制声音特征与风格,在开源数据条件下超越闭源商业产品。

五、 OpenAI出了一个GPT-5编程提示技巧指南,共六点

1. 指令要准确避免冲突:GPT-5遵循指令能力更强,但面对含糊或冲突的规则容易卡住或摇摆,应写清要求并消除冲突;避免过分强硬:"务必、必须、一定要"可能适得其反。

2. 选对推理力度和使用类XML语法结构化规则:复杂任务用高推理力度,常规任务用中/低推理力度;用类XML标签把项目约定、技术栈、风格基线分块,帮助模型建立统一上下文;

3. 零到一任务先规划自省再动手:让模型先定义评判标准(但不展示给用户),然后据此迭代产出;可控制Agent工具预算与查找节奏,明确何时详查、何时汇报,避免过度深挖。

前沿科技

六、 首届人形『机器人』️运动会首日视频集锦,一共有3天赛程

1. 首届人形『机器人』️运动会在国家速滑馆举行,参赛『机器人』️进行跑步、足球、拳击、舞蹈、武术等多项竞技,宇树『机器人』️勇夺1500米长跑金牌🥇;

2. 足球5V5小组赛展示了『机器人』️球员的实时计算和协作能力,红蓝双方使用同样本体但算法设计不同,蓝队1号球员成为『明星』️选手完成3次进球;

报告观点

七、 DeepMind研究者:Genie 3构建,及未来世界模型发展

1. Genie 3是DeepMind结合Veo 2和Genie 2打造的世界模型,每秒可生成24帧720p高清画面,一句话即可创建互动世界;

2. 模型具备特殊记忆能力,可记住最长一分钟前的视觉细节,物理规律表现作为训练数据规模和深度增加的自然产物不断提升;

3. Genie 3是通向AGI的重要一步,未来发展将聚焦真实感和交互性,有望为『机器人』️提供无限量训练场景,解决现实数据有限的瓶颈。

八、 奥特曼:OpenAI的CEO或将是个AI,『Chrome』我也想买

1. 奥特曼在神秘晚宴上表示OpenAI计划斥资数万亿建设『数据中心』,正设计全新的融资工具,并暗示"也许三年后CEO会是个AI";

2. 他确认与Jony Ive联手打造的AI设备已在研发中,对GPT-5调整了态度,承认"人类创作内容"价值将大幅上升,表达对脑机接口和颠覆『社交媒体』的野心;

3. 奥特曼认为当前处于"AI泡沫"时期,类似『互联网』泡沫时代,但AI确实是长久以来最重要的技术革命,表示目前影响的5%占比可能很快将达到10%-20%。

九、 OpenAI 首席科学家新播客:AI才是改变世界的关键力量

1. OpenAI首席科学家和研究员讨论AGI定义已从抽象概念细化为多维能力集合,指出当前评测基准大多已"饱和",需转向实际应用价值评估;

2. 研究者指出AI领域发展超预期,如模型已在IMO获金牌🥇、ICPC和AtCoder编程竞赛中表现优异,展现出强大推理与创造性思维;

3. 对于教育,专家建议不应完全放弃编程学习,而是将AI视为辅助工具,强调结构化思维和批判性思维的重要性,并表示AI未来将成为改变世界的核心力量。

十、 Sierra AI 创始人:未来一定会出现大量长尾型Agent公司

1. Sierra AI创始人Bret Taylor认为AI市场将分为三大赛道:前沿基础模型、AI工具链和应用型Agent,其中应用型Agent机会最大;

2. Agent可使生产力曲线重新变陡,从"软件提升人效率"转向"软件自己完成工作",将像早期计算机那样带来生产力飞跃;

3. 未来Agent公司会更像现代SaaS,按业务成果定价而非技术细节,市场将出现大量长尾型Agent公司,类似软件市场的演进方式。

👇加入AGI数据库,AI智能问答

混元3D世界模型Lite版,消费级显卡就能跑

特别声明:[腾讯研究院AI速递 20250818(腾讯研究院官网)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

我在时间尽头等你:以时光为刃,刻下最深情的告白(我在时间尽头等你主题曲)

影片将奇幻设定与现实的爱情困境结合,让这份爱既有超越时空的浪漫,又有着触手可及的真实 ——就像现实中无数默默付出的爱人,为了守护彼此,甘愿放下自己的一切,在平凡的日子里,用行动诠释着深情。 那些时光里的细节…

我在时间尽头等你:以时光为刃,刻下最深情的告白(我在时间尽头等你主题曲)

雅马哈XJ900 Diversion XV1600 XV1700燃油泵汽油泵选型全解:2026年必知细节与避坑指南(雅马哈调音台)

随着雅马哈XJ900 Diversion XV1600 XV1700的普及,如何选择合适的燃油泵成为许多骑行者关注的重点。本文将深入解析燃油泵的关键参数、应用场景及选型注意事项,帮助您避开选购中的常见误区,确保您的爱车始终动力澎湃。无论是追

雅马哈XJ900 Diversion XV1600 XV1700燃油泵汽油泵选型全解:2026年必知细节与避坑指南(雅马哈调音台)

气提式桥式吸砂机和行车式真空吸砂机,曝气沉砂池排砂排渣设备选哪个更优?2026最新趋势分析(气提砂原理)

在气提式桥式吸砂机和行车式真空吸砂机的选择中,如何根据实际工况找到最优方案?本文详解两者的适用场景、工作原理及维护要点,助您避免选型误区。从性能、投入成本、运营效益出发,轻松做出明智决策。

气提式桥式吸砂机和行车式真空吸砂机,曝气沉砂池排砂排渣设备选哪个更优?2026最新趋势分析(气提砂原理)

二年级小朋友拜年礼仪照怎么拍才算好?聊聊2026年新年摄影趋势(二年级学生拜年视频)

二年级孩子拜年时如何拍照既美观又有礼貌?本文详解最佳拍摄姿势、场景选择及注意事项,助您留下美好瞬间。了解礼仪照的关键构成与拍摄诀窍,帮您轻松掌握拜年照的精髓,记录温馨时刻。

二年级小朋友拜年礼仪照怎么拍才算好?聊聊2026年新年摄影趋势(二年级学生拜年视频)

星河入梦》定档春节:30亿票房目标,是野心还是空想?(星河入梦来逆水寒短剧)

春节档的核心购票群体包含大量家庭观众,而影片的近未来科幻设定与梦境冒险剧情,对低龄儿童与中老年观众的吸引力有限,难以像合家欢影片那样实现全圈层破圈。 综合来看,《星河入梦》具备题材差异化、阵容有号召力、制作有…

《<strong>星河入梦</strong>》定档春节:30亿票房目标,是野心还是空想?(星河入梦来逆水寒短剧)