Liquid AI:LFM2-VL模型赋能手机视觉AI

今日霍州(www.jrhz.info)©️

Liquid AI发布了LFM2-VL,这是新一代视觉-语言基础模型,专为在各种硬件设备上高效部署而设计——从『智能手机』、笔记本📓电脑💻️到可穿戴设备和嵌入式系统。该模型承诺提供低延迟性能、高精度和实际应用的灵活性。

LFM2-VL基于该公司一个月前推出的现有LFM2架构构建,该架构被称为"市场上最快的设备端基础模型",得益于其为每个输入实时生成"权重"或模型设置的方法(称为线性输入变化系统),将其扩展到支持文本和图像输入的多模态处理,支持可变分辨率。

据Liquid AI表示,该模型的GPU推理速度比同类视觉-语言模型快两倍,同时在常见基准测试中保持竞争性能表现。

针对不同需求的两个版本

此次发布包括两种模型规模:

LFM2-VL-450M——一个超高效模型,参数不到5亿,针对资源极度受限的环境。

LFM2-VL-1.6B——一个更强大的模型,但仍轻量化足以在单GPU和设备端部署。

两个版本都能处理高达512×512像素的原生分辨率图像,避免失真或不必要的放大。对于更大图像,系统应用非重叠分块并添加缩略图以提供全局上下文,使模型能够同时捕获精细细节和更广阔的场景。

Liquid AI背景

Liquid AI由麻省理工学院计算机科学与人工智能实验室(CSAIL)的前研究人员创立,目标是构建超越广泛使用的Transformer模型的AI架构。该公司的旗舰创新——液体基础模型(LFM),基于动力学系统、信号处理和数值线性代数原理,产生能够处理文本、视频、音频、时间序列和其他序列数据的通用AI模型

与传统架构不同,Liquid的方法旨在使用显著更少的计算资源提供竞争性或更优的性能,允许在推理过程中实时适应,同时保持低内存需求。这使得LFM既适合大规模企业用例,也适合资源有限的边缘部署。

2025年7月,该公司通过推出Liquid Edge AI平台(LEAP)扩展了其平台策略,这是一个跨平台SDK,旨在帮助开发者更容易地在移动和嵌入式设备上直接运行小型语言模型。LEAP提供iOS和Android的操作系统无关支持,与Liquid自有模型和其他开源小型语言模型集成,内置库包含小至300MB的模型——足够小以适配现代手机的最小RAM。

速度/质量权衡和技术设计

LFM2-VL使用模块化架构,结合语言模型骨干、SigLIP2 NaFlex视觉编码器和多模态投影器。投影器包含带像素解打乱的两层MLP连接器,减少图像Token数量并提高吞吐量。

用户可以调整参数,如最大图像Token或分块数量,根据部署场景平衡速度和质量。训练过程涉及约1000亿多模态Token,来源于开放数据集和内部合成数据。

性能和基准测试

该模型在一系列视觉-语言评估中实现了竞争性基准结果。LFM2-VL-1.6B在RealWorldQA(65.23分)、InfoVQA(58.68分)和OCRBench(742分)中表现良好,在多模态推理任务中保持稳定结果。在推理测试中,当在1024×1024图像和短提示的标准工作负载上测试时,LFM2-VL在其类别中实现了最快的GPU处理时间。

许可和可用性

LFM2-VL模型现已在Hugging Face上可用,同时提供Colab中的示例微调代码。它们与Hugging Face transformers和TRL兼容。模型在定制的"LFM1.0许可证"下发布。Liquid AI描述该许可证基于Apache 2.0原则,但完整文本尚未发布。该公司表示将在某些条件下允许商业使用,对年收入超过和低于1000万美元💵的公司采用不同条款。

通过LFM2-VL,Liquid AI旨在让高性能多模态AI在设备端和资源有限的部署中更易获得,而不牺牲能力。

Q&A

Q1:LFM2-VL模型有什么特别之处?

A:LFM2-VL是Liquid AI发布的新一代视觉-语言基础模型,专为『智能手机』、笔记本📓电脑💻️、可穿戴设备等各种硬件高效部署设计。它的GPU推理速度比同类模型快两倍,同时保持竞争性能,支持512×512像素原生分辨率图像处理。

Q2:LFM2-VL有哪两个版本?分别适用于什么场景?

A:LFM2-VL提供两个版本:LFM2-VL-450M是超高效模型,参数不到5亿,适用于资源极度受限环境;LFM2-VL-1.6B是更强大的模型,但仍足够轻量化,适合单GPU和设备端部署。

Q3:普通开发者如何获取使用LFM2-VL模型?

A:LFM2-VL模型现已在Hugging Face平台上提供,同时包含Colab中的示例微调代码。模型与Hugging Face transformers和TRL兼容,在定制的LFM1.0许可证下发布,允许在特定条件下商业使用。

特别声明:[Liquid AI:LFM2-VL模型赋能手机视觉AI] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

小米17 Ultra即将官宣:首发徕卡1英寸主摄(小米ultra售价)

今年的小米数字系列首次开辟了Pro Max产品线,同时推出了小米17、小米17 Pro和小米17 Pro Max三款机型。小米集团总裁卢伟冰很早就透露,小米数字系列还会有Ultra版。目前该机已经获得入网许可,距离正式发布不远了。根据小米销

小米17 Ultra即将官宣:首发徕卡1英寸主摄(小米ultra售价)

适用新大洲本田SDH110T-2-6-8车型前轮圈及后钢圈的技术解析(新大洲本田全系列产品)

本文全面介绍适用于新大洲本田SDH110T-2-6-8车型的前轮圈和后钢圈的技术细节,包括定义、分类、材质特点、安装注意事项等内容。详细探讨其设计原理、发展历程以及适用场景,帮助用户深入了解该车型的车轮系统。

适用新大洲本田SDH110T-2-6-8车型前轮圈及后钢圈的技术解析(新大洲本田全系列产品)

空压机突发故障的应急处理预案应包含哪些要点?(空压机故障的应急处理方法)

一份科学完备的应急处理预案,是快速响应、减少损失的“安全盾牌”,它的核心要点需覆盖全流程管控。预案首先需根据故障现象,比如异常停机、高温、异响、压力剧降等和影响范围,建立初步的故障分级标准。 2、针对各类常…

空压机突发故障的应急处理预案应包含哪些要点?(空压机故障的应急处理方法)

王楚钦孙颖莎沟通保密第一位 八年默契成就无声共鸣(王楚钦孙颖莎混双夺冠视频)

12月11日,WTT香港总决赛进入第二比赛日。在混双小组赛中,孙颖莎王楚钦以3比0战胜世界排名第一的队友林诗栋蒯曼。单打18决赛中,孙颖莎4比0战胜王艺迪、林诗栋4比0战胜梁靖崑、蒯曼4比0战胜早田希娜、向鹏4比2战胜安宰贤

王楚钦孙颖莎沟通保密第一位 八年默契成就无声共鸣(王楚钦孙颖莎混双夺冠视频)

TISAX:防护未授权访问与敏感信息保障(防护定义不可用)

根据安全威胁的变化和业务发展需求,不断优化和改进物理访问控制和信息安全措施,以应对新的挑战和威胁。 综上所述,TISAX通过物理访问控制、信息安全策略与流程、安全审计与监控、员工培训与意识提升、应急响应计划…

TISAX:防护未授权访问与敏感信息保障(防护定义不可用)