百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)

百度把他们全新的视觉理解模型Qianfan-VL直接开源了。

Qianfan-VL系列一共有三个版本,3B、8B和70B,参数量从小到大,分别对应不同的应用场景。

模型从头到尾,都是在百度自己家的『芯片』昆仑芯P800上训练出来的。

模型的性能和应用

Qianfan-VL是一个多模态大模型,就是那种既能看懂图片又能理解文字的AI。一张复杂的图表,它能分析出里面的数据和趋势。

它最核心的两个本领是OCR(光学字符识别)和教育场景的深度优化。

你拍一张身份证🪪,系统自动把你的姓名、证件号填好,这就是OCR。Qianfan-VL把这项能力做到了全场景覆盖,不管是印刷体、手写字,还是藏在街边招牌、商品包装袋上的艺术字,甚至是数学卷子上的复杂公式,它都能识别。发票、单据里的信息也能自动抽出来,变成结构化的数据。

而在教育场景,特别是K12(从幼儿园到高三)阶段,它的目标就是成为一个超级学霸。拍照解题、几何推理、函数分析,这些都是它的强项。

Qianfan-VL和国际上几个主流的多模态模型跑分对比。

在科学问答测试ScienceQA里,70B版本的Qianfan-VL拿到了接近满分的98.76,把一众对手甩在身后。

尤其是在中文多模态基准测试CCBench中,Qianfan-VL-70B拿到了80.98分,而同级别的对手只有70分出头。这说明它在理解中文语境下的图文内容时,优势非常明显。

在数学解题相关的几项测试,比如Mathvista-mini,Math Vision和Math Verse里,Qianfan-VL-70B几乎是碾压式的领先。

纯血国产『芯片』训练

支撑Qianfan-VL模型训练的,是百度自研的昆仑芯P800『芯片』。

2025年4月,百度点亮了国内首个全自研的3万卡昆仑芯P800集群。Qianfan-VL的所有训练任务,都是在一个超过5000张昆仑芯P800卡的集群上完成的。

昆仑芯P800是个什么水平?

从纸面参数看,昆仑芯P800有一个非常突出的优点,就是功耗控制得极好,150W到160W的功耗,远低于竞争对手。这意味着在组建大规模集群时,能耗和散热成本会更有优势。

昆仑芯P800真正的杀手锏在于它的架构设计。

P800的XPU-R架构,从硬件上就把计算单元和通信单元分开了。这就好比把单行道改成了双向八车道,旁边还修了条专门给行人走的人行道。计算和通信各走各的路,互不干扰,可以同时进行。

百度把这个技术叫做“通算融合”。通过精巧的调度,可以让数据传输的等待时间,完全被计算过程所掩盖。比如,在计算第一块数据的时候,第二块数据已经在传输的路上了,等第一块算完,第二块正好无缝衔接。这样一来,『芯片』的利用率被大大提高了。

基于这种能力,百度还推出了“昆仑芯超节点”方案,能把64张昆仑芯P800塞进一个机柜里。卡与卡之间的数据交换从速度较慢的“机间通信”变成了速度飞快的“机内通信”,带宽直接提升8倍,单机训练性能提升10倍。

模型是这么炼成的

它的底层架构融合了业界的优秀成果。语言模型部分,小参数的3B版本基于Qwen2.5,而主力8B和70B版本则基于Llama 3.1。视觉编码器用了InternViT,最高能处理4K分辨率的超高清图像。

精髓在于它的训练方法,百度设计了一套创新的“四阶段训练管线”,像一个精密的四步升级程序。

“跨模态对齐”。这个阶段的目标很简单,就是先让模型的语言部分和视觉部分认识一下,建立最基础的连接。训练的时候,只更新它俩之间的连接件(一个叫MLP Adapter的东西),语言和视觉模块本身都先冻结,避免互相影响。

“通用知识注入”。这个阶段开始给模型疯狂“喂”数据,总共投喂了2.66T tokens的通用知识数据。同时,模型的全部参数都放开进行训练。这个阶段的目标是为模型打下坚实的通识基础,让它成为一个见多识广的“通才”。

“领域增强知识注入”。在成为“通才”之后,就要开始培养它的“专长”了。百度精选了大量高质量的OCR、文档理解、数学解题等领域的数据,对模型进行专项强化训练。为了防止模型在学习专业知识时忘记了通用知识(这个现象在AI训练中被称为“灾难性遗忘”),训练时还会掺入一部分通用数据。

“后训练”。经过前三个阶段,模型已经能力很强了,但可能还不太“听话”。这个阶段就是通过大量的指令微调数据,教模型如何更好地理解和遵循人类的指令,让它变得更像一个得力的助手。

第三阶段使用的专业数据,是百度通过一套高精度数据合成管线自己“造”出来的。

目前,Qianfan-VL的全系列模型已经在GitHub和Hugging Face等平台全面开源,企业和开发者可以自由下载使用。

百度智能云的千帆平台也提供了在线体验和部署服务。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B

https://huggingface.co/baidu/Qianfan-VL-8B

https://huggingface.co/baidu/Qianfan-VL-3B

ModelScope:

https://modelscope.cn/organization/baidu-qianfan

特别声明:[百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

金融会计如何学习(金融会计入门书籍)

金融会计怎么学才能不踩坑?打工人逆袭必备技能!金融会计, 学习方法, 打工人进阶, 财务思维, 实操技巧想转行金融会计却无从下手?自学总卡在借贷分录上?考证花了钱却用不上?别再死记硬背了!本文揭秘真实金融会计从业者的学习路径,从零基

金融会计如何学习(金融会计入门书籍)

高保真BH1417F高稳定度100米锁相环FM调频立体声发射板解析(高保真啥意思)

高保真BH1417F高稳定度100米锁相环FM调频立体声发射板是一款专业的成品电路板,采用先进的锁相环技术实现高精度频率调节。本词条详细解析了该产品的定义、工作原理、技术特性以及应用领域,并对其优势与局限性进行了客观评价。

高保真BH1417F高稳定度100米锁相环FM调频立体声发射板解析(高保真啥意思)

盐酸雷尼替丁片的作用及不良反应是什么(盐酸雷尼替丁片图片)

盐酸雷尼替丁片是一种H2受体拮抗剂类药物。该药主要用于治疗十二指肠溃疡、胃溃疡、反流性食管炎、卓-艾(Zollinger-Ellison)综合征及其他高胃酸分泌疾病。盐酸雷尼替丁片可能会导致恶心、皮疹、便秘、乏力、头痛、头晕等不良反应。

盐酸雷尼替丁片的作用及不良反应是什么(盐酸雷尼替丁片图片)

台湾艺人修杰楷逃避兵役案引发社会关注,其妻子贾静雯通过经纪公司作出回应(修杰楷台剧)

『林心如』成为金牌🥇『制片人』后,很多赵薇的粉丝又开始嘲笑『林心如』,说『林心如』的紫薇只是一个配角,那还珠格格到男女主角🎭️到底是谁了。 如果从电视剧来看尔康是男主角🎭️,剧中尔康和紫薇、金锁、赛亚、晴儿4段感情线,相反五阿哥从头到…

台湾艺人修杰楷逃避兵役案引发社会关注,其妻子贾静雯通过经纪公司作出回应(修杰楷台剧)

上梁不正下梁歪!6年了郭碧婷被“坑惨”,终究是走了向太老路(上梁不正下梁歪图片)

别人婚姻里最大的考验常常来自婆婆,到了她这里,情况恰恰相反——将她视如己出、百般呵护的,正是婆婆向太陈岚;而那位本该最亲密的丈夫向佐,却似乎总少了些对她的热切与关怀。果然,有人发现2023年CoCo曾担任向佐…

上梁不正下梁歪!6年了郭碧婷被“坑惨”,终究是走了向太老路(上梁不正下梁歪图片)