MiniMax追着『DeepSeek』打

记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标『DeepSeek』 R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对『大语言模型』而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是『DeepSeek』 R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和『DeepSeek』 R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而『DeepSeek』 R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与『DeepSeek』 R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到『DeepSeek』 R1的一半,进一步降低了模型操作成本。

2025年2月,『DeepSeek』火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元💵的GPU成本,就训练出了与OpenAI o1能力不相上下的『DeepSeek』 R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块『英伟达』H800 GPU,耗时三周,成本仅为53.5万美元💵,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而『DeepSeek』 R1 的API服务收费标准为输入每百万Tokens收费0.55美元💵(约合人民币3.95元),输出每百万Tokens收费2.19美元💵(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于『DeepSeek』 R1,而第三个超长文本档位,目前『DeepSeek』模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

转自:经济观察报

特别声明:[MiniMax追着『DeepSeek』打] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

加拿大之后,欧洲终于明白:平等的朋友,美国给不了(加拿大几年了)

最近,欧洲和美国在技术领域的摩擦越来越显眼。从欧盟对美国科技巨头开出天价罚单,到美国反过来对欧洲官员实施签证限制,一系列事件让不少人觉得,欧洲似乎真的动了和美国技术“决裂”的念头。美国出台的《通胀削减法案》,…

加拿大之后,欧洲终于明白:平等的朋友,美国给不了(加拿大几年了)

32岁章泽天回国创业,烫羊毛卷素颜开会很自信,没有拖刘强东后腿(章泽天最近)

不得不说,刘强东的择偶眼光真不错,眼前的章泽天不仅有颜值、学历和才华,而且如今她又回到了国内,开辟自己的事业天地,这样的独立女性♀️,无疑更加吸引人,且不容易被社会的成见所淘汰。 事业能够带给人成就感和自我价…

32岁章泽天回国创业,烫羊毛卷素颜开会很自信,没有拖刘强东后腿(章泽天最近)

工业试验设备选型指南:济南世昌试验设备有限公司,专注缠绕试验机研发,提供多元化解决方案(试验设备生产厂家)

公司深耕单轴缠绕、线材扭转、金属卷绕等细分领域,为线缆、金属加工、电子元器件等行业提供覆盖全场景的检测解决方案。某轨道交通企业反馈,通过采用济南世昌的线材扭转缠绕试验机,其接触网导线检测周期从7天压缩至2天,…

工业试验设备选型指南:济南世昌试验设备有限公司,专注缠绕试验机研发,提供多元化解决方案(试验设备生产厂家)

2026夏天必备:润本驱蚊液喷雾是否真的0酒精0香精无刺激?(夏天必备清单)

夏季防蚊成为热点需求,润本驱蚊液喷雾号称0酒精0香精,是否真能安全防护?本文从成分、使用场景到实际效果进行详细评测。帮你选出最适合的户外防蚊产品。

2026夏天必备:润本驱蚊液喷雾是否真的0酒精0香精无刺激?(夏天必备清单)

北京前门的年味儿已上线 光影交织喜迎春(前门附近老北京小吃)

新年之际,北京前门大街焕然一新。夜幕降临,满街的花灯亮起,中国结和彩灯将整条街道装扮成喜庆的海洋,瞬间切换成“过年模式”,充满了烟火气和仪式感。为了让大家更好地体验前门大街的年味,这里整理了一条打卡路线

北京前门的年味儿已上线 光影交织喜迎春(前门附近老北京小吃)