
2026年6月1日,MiniMax 正式发布了新一代旗舰模型 M3,同日开源权重。与此同时,DeepSeek V4 Pro 在此前已凭借极致性价比席卷开发者社区。两款模型分别代表了国产大模型在”全能前沿”和”极致性价比”两个方向上的最高水准。本文将从技术架构、核心能力、定价策略和适用场景四个维度,对这两款模型进行全面对比分析。
一、两款模型的核心定位
MiniMax M3:定位为全能型前沿模型(Frontier Model),同时具备前沿编程能力、1M 超长上下文和原生多模态三大核心能力。MiniMax 官方强调,这是国内第一个、也是目前唯一同时齐备这三种能力的开源模型。
DeepSeek V4 Pro:定位为高性价比旗舰模型,以极致低价和超强编程/数学推理能力为核心卖点。总参数量约 1.6 万亿,支持 1M 上下文窗口,价格仅为 GPT-5.5 的 1/70,是规模化调用的首选。
二、技术架构对比
| 维度 | MiniMax M3 | DeepSeek V4 Pro |
|---|---|---|
| 注意力架构 | MSA(MiniMax Sparse Attention) | DSA(DeepSeek Sparse Attention) |
| 上下文窗口 | 1M token | 1M token |
| 多模态 | 原生多模态(文本+图片+视频输入) | 支持多模态输入 |
| 训练数据规模 | 100万亿 token 量级 | 14.8万亿 token |
| 开源状态 | 开源权重(发布后10天内开放) | 开源权重 |
| 思考模式 | thinking / non-thinking 双模式 | 深度思考模式 + Flash模式 |
三、核心能力 Benchmark 对比
编程能力
| Benchmark | MiniMax M3 | DeepSeek V4 Pro | 对比参考 |
|---|---|---|---|
| SWE-Bench Pro | 59.0% | 约 55% | GPT-5.5: 58.6%, Opus 4.7: 约 62% |
| Terminal Bench 2.1 | 66.0% | — | — |
| LiveCodeBench | — | 93.5% | Claude Opus 4.6: 约 90% |
| Codeforces 评分 | — | 3206(深度思考) | 接近人类顶级程序员 |
| SWE-fficiency | 34.8% | — | — |
在 SWE-Bench Pro 上,MiniMax M3 以 59.0% 的成绩超越了 GPT-5.5(58.6%)和 Gemini 3.1 Pro,接近 Claude Opus 4.7。而 DeepSeek V4 Pro 在 LiveCodeBench 上达到 93.5%,超越 Claude Opus 4.6,Codeforces 竞技编程评分高达 3206 分,增幅超过 800 分。
Agent 与工具调用
| Benchmark | MiniMax M3 | DeepSeek V4 Pro |
|---|---|---|
| Claw-Eval(Agent端到端) | 最高分 | — |
| BrowseComp(智能体浏览) | 83.5 | — |
| MCP Atlas | 74.2% | — |
| BFCL(工具调用) | — | 领先水平 |
MiniMax M3 在 Agent 能力上投入了大量训练资源,构建了交互式用户模拟器框架,模拟真实开发者的协作行为,使模型在多轮迭代、需求补充、方案讨论等场景下表现突出。DeepSeek V4 Pro 则在工具调用稳定性方面做了系统性提升,配合 Reasonix 等专属 Agent 框架使用效果更佳。
数学推理与综合能力
| Benchmark | MiniMax M3 | DeepSeek V4 Pro |
|---|---|---|
| MATH-v3 | — | 94.2% |
| SuperCLUE 综合 | — | 70.98(国产第一) |
| SVG-Bench | 超过 Opus 4.7 | — |
| OmniDocBench(多模态文档) | 超过 Gemini 3.1 Pro | — |
| PostTrainBench(自主训练模型) | 0.37 | — |
DeepSeek V4 Pro 在数学推理方面表现极为突出,MATH-v3 达到 94.2%,超越了此前保持领先的 Claude 4。MiniMax M3 则在 SVG 生成、多模态文档理解等差异化能力上展现了独特优势。
四、实际任务表现
MiniMax M3 的三大实战案例
论文独立复现:MiniMax 让 M3 独立复现一篇 ICLR 2025 Outstanding Paper Award 获奖论文。M3 自主运行近 12 小时,全程自主产出 18 次 commit 与 23 张实验图表,成功吻合了 SFT 阶段的预测概率变化趋势,清晰观测到 DPO 实验的 squeezing 效应。这需要多模态能力看懂论文图表、长上下文容纳论文+代码+日志、以及强编程+Agent 能力。
CUDA 算子优化:在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel,M3 在约 24 小时内完成 147 次 benchmark 提交、1959 次工具调用,将硬件峰值利用率从 7.6% 推进至 71.3%,实现 9.4 倍加速。值得注意的是,M3 的最优解出现在第 145 次提交,展现了极强的长程自主迭代能力。
自主训练模型:给 M3 四个只完成预训练的 Base 模型,让它在 12 小时内自主完成数据合成、训练、评测、迭代的全流程。M3 最终得分 0.37,略低于 Opus 4.7(0.42)和 GPT-5.5(0.39),但明显领先其余模型。
DeepSeek V4 Pro 的核心优势场景
规模化编程调用:DeepSeek V4 Pro 配合 Reasonix 框架,缓存命中率可达 99.82%,4.2 亿 Token 输入的账单从 61 美元降至 12 美元。对于需要大量 API 调用的编程场景,成本优势极为明显。
数学与推理密集型任务:MATH-v3 94.2% 的成绩意味着在数学推理任务上,DeepSeek V4 Pro 已经接近甚至超越人类专家水平,适合科研、金融建模等高精度推理场景。
长文本处理:长文本召回率从 V3.2 的 45% 飙升至 97%,配合 1M 上下文窗口和永久降价的 API,是处理长文档、长代码库的理想选择。
五、定价策略对比
| 计费方式 | MiniMax M3 | DeepSeek V4 Pro |
|---|---|---|
| API 输入价格 | $0.60/百万 token | 约 $0.27/百万 token(缓存命中更低) |
| API 输出价格 | $1.20/百万 token | 约 $1.10/百万 token |
| 订阅最低档 | Plus: 49元/月,6亿 token | 无订阅制,按量付费 |
| 订阅最高档 | Ultra: 469元/月,55亿 token | — |
| 开源 | 即将开源(10天内) | 已开源 |
定价策略上两款模型走出了完全不同的路线。MiniMax M3 提供了灵活的订阅制,Plus 档 49 元/月 6 亿 token,按同等价格算约是 Claude 订阅的 15 倍用量。DeepSeek V4 Pro 则坚持按量付费,配合 Prefix-Cache 机制,实际使用成本极低。不过 MiniMax M3 的定价也引发了一些争议——在行业普遍降价的背景下,M3 相比上代 M2 涨价了。
六、如何选择?适用场景建议
选 MiniMax M3 的场景
- 需要原生多模态能力(图片+视频+文本联合理解)
- 复杂 Agent 任务,需要长程自主迭代和多轮协作
- 需要 Computer Use 能力(操控电脑桌面)
- 偏好订阅制,不想操心按量计费
- 需要 SVG 生成、文档理解等差异化能力
选 DeepSeek V4 Pro 的场景
- 大规模 API 调用,对成本极度敏感
- 数学推理、数据分析等高精度任务
- 配合 Reasonix 等专属框架使用,追求极致性价比
- 竞技编程、代码生成等编程密集型场景
- 需要本地部署(已开源权重)
两者都值得关注的趋势
两款模型都代表了国产大模型在不同方向上的突破。MiniMax M3 证明了国产模型可以在”全能前沿”维度上与国际顶尖模型正面竞争,而 DeepSeek V4 Pro 则展示了”极致性价比”路线的巨大潜力。对于开发者和企业来说,最好的策略是根据具体场景灵活选择,甚至组合使用——用 DeepSeek V4 Pro 处理日常编程和推理任务,用 MiniMax M3 处理需要多模态和复杂 Agent 的长程任务。
国产大模型的竞争正在从”能不能”走向”好不好用”和”贵不贵”,这对用户来说,无疑是最好的时代。
