技术速递|开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal

作者:卢建晖 - 微软高级云技术布道师

排版:Alan Wang

今日霍州(www.jrhz.info)©️

Microsoft Phi-4 系列模型正式发布,延续先前发布的强推理 Phi-4 (14B)模型, 今天带来了 Phi-4-mini-instruct(3.8B),以及 Phi-4-multimodal(5.6B)模型。我们可以从 Hugging face、Azure AI Foundry Model Catalog、GitHub Models,以及 Ollama 获取使用模型。

Phi-4 除了在多语言、推理以及数学等方面的能力提升外,对于大家期待已久的 Function Calling 也终于支持了。与此同时,Phi-4-multimodal 更是作为全模态模型,具备了视觉、听觉、文本、多语言理解、强推理,以及编码等能力。我们可以把 Phi-4-mini / Phi-4-multimodal 部署在边缘终端,让更多的 IoT 应用场景在算力和网络受限的情况下,可以和生成式人工智能结合。接下来,我们一起探索全新的 Phi-4-mini 以及 Phi-4-multimodal。

Function Calling

这是社区期待已久的功能,有了 Function Calling,我们可以对 Phi-4-mini / Phi-4-multimodal 的文本能力进行扩展,结合搜索引擎,以及连接不同的工具等。如图所示,这是一个通过 Phi-4-mini 查询英超比赛信息的示意图:

今日霍州(www.jrhz.info)©️

jrhz.info

示例代码

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/07.FunctionCalling/Phi4/FunctionCallingBasic/README.md

量化后的模型部署

今日霍州(www.jrhz.info)©️

我们可以把量化后的模型部署在边缘设备中,并结合 Microsoft Olive, ONNXRuntime GenAI 把 Phi-4-mini 部署在 『Windows』、iPhone、Android 等终端上。以下是一个在 iPhone 12 Pro 上运行的示例:

全模态 SLM

Phi-4-multimodal 是全模态的模型,支持文字、视觉、语音输入。或许大家对视觉场景已经非常熟悉,我们可以根据图片,直接生成代码。

示例

https://github.com/kinfey/PhiCookbook/tree/main/md/02.Application/04.Vision/Phi4/CreateFrontend

语音功能的整合让 Phi-4 在功能上有了更强的支持,以下是相关示例:

  • 语音提取

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/08.Multimodel/Phi4/TechJournalist/phi_4_mm_audio_text_publish_news.ipynb

  • 语音交互

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Siri/demo.ipynb

  • 语音翻译

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Translate/demo.ipynb

语音提取

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/08.Multimodel/Phi4/TechJournalist/phi_4_mm_audio_text_publish_news.ipynb

语音交互

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Siri/demo.ipynb

语音翻译

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Translate/demo.ipynb

强推理性

Phi-4 (14B) 发布时,强推理性就是一个卖点,现在 Phi-4-mini 和 Phi-4-multimodal 虽然参数量减少了,但也具备了该能力,我们可以结合 Image 来测试强推理能力。例如上传一张图片,让 Phi-4-multimodal 能根据图片内容结合提示词更有序地生成项目代码。

示例代码

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/02.Code/Phi4/GenProjectCode/README.md

Phi-4-mini 和 Phi-4-multimodal 在有限的参数量上达到了一些 LLM 的效果。我们可以把 Phi-4-mini 和 Phi-4-multimodal 部署在边缘端,让我们的 PC、移动设备、IoT 具备更强的生成式人工智能能力。我们会陆续在 Phi Cookbook(https://aka.ms/Phicookbook)增加示例, 希望 Phi Cookbook 能成为你使用 Phi-4 的必备指南。

学习资源

  • Micorsoft Phi Cookbook

    https://aka.ms/Phicookbook

  • Microsoft Phi-4-multimodal techreport

    https://aka.ms/phi-4-multimodal/techreport

  • Microsoft Phi-4 Paper

    https://arxiv.org/abs/2412.08905

Micorsoft Phi Cookbook

https://aka.ms/Phicookbook

Microsoft Phi-4-multimodal techreport

https://aka.ms/phi-4-multimodal/techreport

Microsoft Phi-4 Paper

https://arxiv.org/abs/2412.08905

今日霍州(www.jrhz.info)©️

卢建晖

微软高级云技术布道师

专注在 AI + Data,著有超过 70 万阅读量的 《Phi-3 Cookbook》。

今日霍州(www.jrhz.info)©️

微信

特别声明:[技术速递|开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

哪款身体乳『美白』保湿滋润效果最好不油腻?2026『美白』身体乳推荐,养出匀净通透(啥牌子身体乳『美白』)

综合价格、功效、适配性来看,黛馥莉身体乳优势突出,堪称全能性价比之选:兼顾专利配方、进口成分与多维功效;配方上兼顾保湿、修护、温和『美白』、淡化色素、自然『香氛』五大需求,适合长期使用;实测数据亮眼,『美白』淡沉、保湿…

哪款身体乳『美白』保湿滋润效果最好不油腻?2026『美白』身体乳推荐,养出匀净通透(啥牌子身体乳『美白』)

三星掌门人李在镕的妹妹为啥执意嫁给保安?她其实是拿回了主动权(三星 李)

尽管李富真最后仅给了他141亿韩元,但这一数字仍然让人感受到千万富翁和亿万富翁之间的差距。 现实中,穷小子与白富美的结合虽然看似美好,但这类爱情的成功几乎只有两种可能性:一种是穷小子逆袭成功,另一种则是白…

三星掌门人李在镕的妹妹为啥执意嫁给保安?她其实是拿回了主动权(三星 李)

办公室里“内鬼”难防?数据说丢就丢!揭秘信企卫如何用六大绝招将泄密通道彻底焊死

一旦泄露出去的文件上带有这样的水印,是谁在什么时候干的,立马就能查得一清二楚。信企卫通过文件加密、禁用外设、管控U盘、阻止打印、限制截屏、部署水印这六个层面的严密布防,从源头加密到终端管控,再到行为追溯,构建…

办公室里“内鬼”难防?数据说丢就丢!揭秘信企卫如何用六大绝招将泄密通道彻底焊死

不会演别硬演!43岁演女特工摇头晃脑,张鲁一和『张颂文』都带不动她(不会表演的人)

这个场面,气场强大到连屏幕那头的观众都能感受到网友们开玩笑地说,『张颂文』演得每个角色都入木三分——上一秒是卖鱼的高启强,下一秒就是搞情报的沈处长,这种诡异的气场,几乎让人不禁打个寒战。大家知道叶碧莹这个角色应该…

不会演别硬演!43岁演女特工摇头晃脑,张鲁一和『张颂文』都带不动她(不会表演的人)

2026年梅思安V-Gard帽盔式防护耳罩中频Type14适合哪些工作场景?(梅思安官网)

梅思安V-Gard帽盔式防护耳罩中频Type14适用于中高频噪音环境下的一线工人,尤其针对建筑、制造、采矿等行业。这款耳罩拥有32dB降噪效果,有效保护听力健康,降低长期职业性噪声聋的风险。本文深入解读这款防护耳罩的特点、适用场景及选购建议

2026年梅思安V-Gard帽盔式防护耳罩中频Type14适合哪些工作场景?(梅思安官网)