苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言

霍州市融媒体中心信息网网 10 月 13 日消息,苹果公司现已为旗下多模态大模型 MM推出1.5版本,该版本模型基于前代 MM1 的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响。

目前相关模型文档已发布于 Hugging Face 上,霍州市融媒体中心信息网网附论文地址如下(点此访问)。

今日霍州(www.jrhz.info)©️

该版本模型提供 10 亿-300亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的能力。

参考论文,团队在 MM1.5 的持续预训练阶段引入了高质量的 OCR 数据和合成图像描述,显著提升了模型对包含大量文本的图像的理解能力。

此外,研究人员在监督式微调阶段分析了不同数据类型对模型表现的影响,优化了视觉指令微调数据的混合方式,从而为模型实现了更高的效率,团队表示,即便是小规模的模型(10、30 亿参数版本)也能表现出色。

值得关注的是,苹果公司本次还推出了专门用于视频理解的 MM1.5-Video 模型和专门处理移动设备用户界面(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 模型未来有望作为iOS幕后的“苹果牌”AI,其能够处理各种视觉引用与定位任务、总结屏幕上的功能,或者通过与用户的对话进行交互。

尽管 MM1.5 模型在多项基准测试中取得了优秀表现,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更复杂的架构,来提升模型对移动设备 UI 的理解能力,加强“苹果牌”AI的实力。

特别声明:[苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『鞠婧祎』咀嚼32次遭批做作?5年后自然干饭圈粉:不必活在放大镜下(『鞠婧祎』吃东西)

二次争议让她再次站上风口浪尖,舆论的焦点始终停留在咀嚼次数这一数字上,似乎没人关心她吃的是什么,没人在意她作为艺人,连吃饭时都得面对镜头的压力。她的咀嚼动作舒展自然,没有刻意去控制次数,也不再在意镜头的角度;…

『鞠婧祎』咀嚼32次遭批做作?5年后自然干饭圈粉:不必活在放大镜下(『鞠婧祎』吃东西)

孟广美成干瘪老太太,她现身香港参加活动,身高缩水侧颜看脸好小(孟广美怎么走出被骗的阴影)

我忍不住翻出她年轻时的动图,再与现在的照片作对比,确实岁月无情,胶原蛋白已经悄然离去,但她的站姿依然挺拔,肩膀宽展,背脊依旧笔直,眼神里没有任何躲闪。有些人说她是依靠丈夫翻身的,但她自己却先给丈夫打了个…

孟广美成干瘪老太太,她现身香港参加活动,身高缩水侧颜看脸好小(孟广美怎么走出被骗的阴影)

牛群前妻刘肃:曾为支持牛群花光积蓄,牺牲半生如今想为自己活(牛群的老婆刘肃的个人资料)

记得在支持牛群摄影的那些年,刘肃曾把家里所有的积蓄都用来换取了一部又一部昂贵的相机📷️和胶卷。 进入2026年,当我们站在今天的视角回望这一段往事,我们会发现这不仅仅是一段家庭故事,它折射出了那个时代中国女性♀️…

牛群前妻刘肃:曾为支持牛群花光积蓄,牺牲半生如今想为自己活(牛群的老婆刘肃的个人资料)

女子把男友当饭票骗40万 信任换来骗局(女孩把男孩当饭票是什么意思)

近日,上海28岁的小林在父母陪同下走进派出所报案,称被交往两年的女友于婕欺骗并偷窃近40万元。小林回忆,两人经朋友介绍认识后不久就确定了恋爱关系。小林从一开始就打算结婚,因此当于婕提出每月上交一半工资时,他毫不犹豫地答应了

女子把男友当饭票骗40万 信任换来骗局(女孩把男孩当饭票是什么意思)

警情通报(警情通报的要求和规范)

本期编辑:陈雨欣 本期审核:陈广瑞…

警情通报(警情通报的要求和规范)