百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)

百度把他们全新的视觉理解模型Qianfan-VL直接开源了。

Qianfan-VL系列一共有三个版本,3B、8B和70B,参数量从小到大,分别对应不同的应用场景。

模型从头到尾,都是在百度自己家的『芯片』昆仑芯P800上训练出来的。

模型的性能和应用

Qianfan-VL是一个多模态大模型,就是那种既能看懂图片又能理解文字的AI。一张复杂的图表,它能分析出里面的数据和趋势。

它最核心的两个本领是OCR(光学字符识别)和教育场景的深度优化。

你拍一张身份证🪪,系统自动把你的姓名、证件号填好,这就是OCR。Qianfan-VL把这项能力做到了全场景覆盖,不管是印刷体、手写字,还是藏在街边招牌、商品包装袋上的艺术字,甚至是数学卷子上的复杂公式,它都能识别。发票、单据里的信息也能自动抽出来,变成结构化的数据。

而在教育场景,特别是K12(从幼儿园到高三)阶段,它的目标就是成为一个超级学霸。拍照解题、几何推理、函数分析,这些都是它的强项。

Qianfan-VL和国际上几个主流的多模态模型跑分对比。

在科学问答测试ScienceQA里,70B版本的Qianfan-VL拿到了接近满分的98.76,把一众对手甩在身后。

尤其是在中文多模态基准测试CCBench中,Qianfan-VL-70B拿到了80.98分,而同级别的对手只有70分出头。这说明它在理解中文语境下的图文内容时,优势非常明显。

在数学解题相关的几项测试,比如Mathvista-mini,Math Vision和Math Verse里,Qianfan-VL-70B几乎是碾压式的领先。

纯血国产『芯片』训练

支撑Qianfan-VL模型训练的,是百度自研的昆仑芯P800『芯片』。

2025年4月,百度点亮了国内首个全自研的3万卡昆仑芯P800集群。Qianfan-VL的所有训练任务,都是在一个超过5000张昆仑芯P800卡的集群上完成的。

昆仑芯P800是个什么水平?

从纸面参数看,昆仑芯P800有一个非常突出的优点,就是功耗控制得极好,150W到160W的功耗,远低于竞争对手。这意味着在组建大规模集群时,能耗和散热成本会更有优势。

昆仑芯P800真正的杀手锏在于它的架构设计。

P800的XPU-R架构,从硬件上就把计算单元和通信单元分开了。这就好比把单行道改成了双向八车道,旁边还修了条专门给行人走的人行道。计算和通信各走各的路,互不干扰,可以同时进行。

百度把这个技术叫做“通算融合”。通过精巧的调度,可以让数据传输的等待时间,完全被计算过程所掩盖。比如,在计算第一块数据的时候,第二块数据已经在传输的路上了,等第一块算完,第二块正好无缝衔接。这样一来,『芯片』的利用率被大大提高了。

基于这种能力,百度还推出了“昆仑芯超节点”方案,能把64张昆仑芯P800塞进一个机柜里。卡与卡之间的数据交换从速度较慢的“机间通信”变成了速度飞快的“机内通信”,带宽直接提升8倍,单机训练性能提升10倍。

模型是这么炼成的

它的底层架构融合了业界的优秀成果。语言模型部分,小参数的3B版本基于Qwen2.5,而主力8B和70B版本则基于Llama 3.1。视觉编码器用了InternViT,最高能处理4K分辨率的超高清图像。

精髓在于它的训练方法,百度设计了一套创新的“四阶段训练管线”,像一个精密的四步升级程序。

“跨模态对齐”。这个阶段的目标很简单,就是先让模型的语言部分和视觉部分认识一下,建立最基础的连接。训练的时候,只更新它俩之间的连接件(一个叫MLP Adapter的东西),语言和视觉模块本身都先冻结,避免互相影响。

“通用知识注入”。这个阶段开始给模型疯狂“喂”数据,总共投喂了2.66T tokens的通用知识数据。同时,模型的全部参数都放开进行训练。这个阶段的目标是为模型打下坚实的通识基础,让它成为一个见多识广的“通才”。

“领域增强知识注入”。在成为“通才”之后,就要开始培养它的“专长”了。百度精选了大量高质量的OCR、文档理解、数学解题等领域的数据,对模型进行专项强化训练。为了防止模型在学习专业知识时忘记了通用知识(这个现象在AI训练中被称为“灾难性遗忘”),训练时还会掺入一部分通用数据。

“后训练”。经过前三个阶段,模型已经能力很强了,但可能还不太“听话”。这个阶段就是通过大量的指令微调数据,教模型如何更好地理解和遵循人类的指令,让它变得更像一个得力的助手。

第三阶段使用的专业数据,是百度通过一套高精度数据合成管线自己“造”出来的。

目前,Qianfan-VL的全系列模型已经在GitHub和Hugging Face等平台全面开源,企业和开发者可以自由下载使用。

百度智能云的千帆平台也提供了在线体验和部署服务。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B

https://huggingface.co/baidu/Qianfan-VL-8B

https://huggingface.co/baidu/Qianfan-VL-3B

ModelScope:

https://modelscope.cn/organization/baidu-qianfan

特别声明:[百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

HR测评!2026年高级产品经理最受欢迎的招聘APP排行榜发布

白领免费:鱼泡直聘对企业端的核心招聘功能采取免费策略(免费二年),白领企业招聘更是为企业减少了成本,为求职者增加了更多的求职通道,因此平台的白领招聘职位非常多,高级产品经理岗位也十分丰富。像鱼泡直聘凭…

HR测评!2026年高级产品经理最受欢迎的招聘APP排行榜发布

音乐剧《仙症》在北京天桥艺术中心首演(音乐剧《仙症》剧情介绍)

知名作曲家亢竹青为该剧担任总制作、作曲、导演及戏剧构作,这也是她首次在一部音乐剧中统领艺术全局。 这次创排《仙症》,是亢竹青的一次“全能”跨界,也让她更加理解导演、制作人等不同岗位的职责,“当我站在导演的角度…

音乐剧《<strong>仙症</strong>》在北京天桥艺术中心首演(音乐剧《<strong>仙症</strong>》剧情介绍)

『蔡卓妍』小10岁私教男友收入曝光,时薪2000月入10万,每日课时爆满(『蔡卓妍』小时候)

毫无疑问,『蔡卓妍』是因感情而与林俊贤走到了一起,两人相处得相当顺利,之前港媒甚至爆料林俊贤已经搬进了『蔡卓妍』价值过亿的豪宅,这更显示出两人关系发展的热烈和深厚,甚至有传闻说他们是以结婚为目标在交往,显然这并非一场…

『蔡卓妍』小10岁私教男友收入曝光,时薪2000月入10万,每日课时爆满(『蔡卓妍』小时候)

星河入梦》定档春节:30亿票房目标,是野心还是空想?(星河入梦来逆水寒短剧)

春节档的核心购票群体包含大量家庭观众,而影片的近未来科幻设定与梦境冒险剧情,对低龄儿童与中老年观众的吸引力有限,难以像合家欢影片那样实现全圈层破圈。 综合来看,《星河入梦》具备题材差异化、阵容有号召力、制作有…

《<strong>星河入梦</strong>》定档春节:30亿票房目标,是野心还是空想?(星河入梦来逆水寒短剧)

佳能NPG-8484L粉盒G84是否适合你的打印机🖨️?2026年选购指南(佳能84粉盒)

选购佳能NPG-8484L粉盒G84,首先要确认打印机🖨️型号兼容性。本文全面分析这款耗材的产品特点、适用场景和性价比,助您2026年轻松挑选。适合佳能IR 2625、2630、2635、2645等机型。明确墨粉类型,了解如何选择更优质的耗材

佳能NPG-8484L粉盒G84是否适合你的打印机🖨️?2026年选购指南(佳能84粉盒)