08 June, 2026

价格差了 20 倍，效果却差得有限：大模型的价格墙正在松动

TL;DR

同一份代码审计任务，MiniMax M3 花 $0.07 找到 13 个问题，Claude Opus 4.8 最贵一档花 $3.39 也不过找到 15 个——便宜模型正在逼近专有模型的能力边界，这个趋势值得每个重度使用 LLM 的开发者认真对待。

这个逻辑最近开始动摇。Kilo 上周发布了一次测试：用同一份预埋了 17 个已知问题的 webhook 服务代码，分别让 Claude Opus 4.8 和 MiniMax M3 做代码审计，记录每次运行的费用、耗时和发现问题数。结果有点让人意外——MiniMax M3 花了 $0.07，找到了 13 个问题；Claude Opus 4.8 最便宜的一档花了 $1.30，同样找到 13 个；最贵的 max 档花了 $3.39，也不过找到 15 个。

价格差了将近 50 倍，能力差了 2 个问题。

我自己没有用过 MiniMax M3，没办法给出第一手的体验。但我用过 Claude Opus 4.x，从 4.7 升到 4.8，说实话感知不太明显——也许任务场景不同，也许差异在我日常用的场景里还没有明显体现。如果你用过 M3，欢迎在评论区聊聊实际效果，我很想知道这个测试结论在更多场景下是否成立。

测试是怎么设计的

Kilo 的测试设计有一个值得关注的细节：被审计的代码库不是随机找的，而是他们自己写的——一个用 TypeScript、Bun 和 SQLite 实现的 webhook 投递服务，接收事件、存储并向订阅者投递带签名的 payload。更关键的是，他们在代码里故意留了 17 个已知问题，覆盖安全、可靠性、正确性和测试覆盖率四个维度，然后用这份清单作为答题本，逐一核对每次审计报告。

每次运行使用相同的 prompt：

Treat this webhook delivery service as production-bound code and audit it for security, reliability, correctness, and test coverage, without editing any files. Write your report to audit.md.
把这个 webhook 投递服务当作即将上生产的代码，从安全、可靠性、正确性和测试覆盖率四个维度审计，不要修改任何文件，把报告写入 audit.md。

工具统一用 Kilo Code CLI，每次独立会话，不共享上下文，跑完记录 token 数、费用和耗时。

Claude Opus 4.8 跑了四档推理强度：medium、high、xhigh、max。MiniMax M3 没有同等的推理强度控制，只跑了一次默认设置。评分规则也很严格：某个问题必须被明确列为独立发现才算，部分提及不计数。

这个设计的好处是排除了大量干扰变量——输入固定、工具固定、评分标准固定，唯一变量就是模型和推理强度。结论因此可比，也因此刺眼。

数字说话

五次运行，结果如下：

模型	发现问题数	费用	耗时
MiniMax M3	13/17	$0.07	5m 03s
Claude Opus 4.8 medium	13/17	$1.30	3m 53s
Claude Opus 4.8 high	13/17	$1.93	~4m 30s
Claude Opus 4.8 xhigh	15/17	$2.03	7m 26s
Claude Opus 4.8 max	15/17	$3.39	9m 24s

MiniMax M3 的 token 用量也更少——比 Claude Opus 4.8 medium 少了 41%，比 xhigh 少了 53%。价格差来自两头：token 少，单价也低。

最让人意外的不是 M3 便宜，而是 Claude Opus 4.8 max 的表现。它是最贵的一档，比 xhigh 多花了 67%，耗时将近 10 分钟，但发现的问题数和 xhigh 完全一样——而且还漏掉了一个 xhigh 抓到的问题。多花的钱，没买到更好的报告。

如果按「每发现一个问题的费用」来算，MiniMax M3 的性价比遥遥领先，Claude Opus 4.8 max 垫底。

推理档越高，不一定越好

Claude Opus 4.8 的四档推理强度，结果没有呈现一条直线上升的曲线——这是这次测试里另一个值得细看的发现。

medium 和 high 都找到了 13 个问题，从 medium 升到 high，token 只多了 6%，费用却多了 48%，发现数没有任何变化——钱花出去了，什么都没多找到。

从 high 升到 xhigh 才算买到了东西：token 多了 17%，费用只涨了 5%，发现数增加了 2 个，是四档里性价比最好的一跳。但 xhigh 升到 max 就又掉回来了——token 数量甚至略有下降，费用却猛涨 67%，发现数纹丝不动，还丢了一个 xhigh 找到的问题。

更有意思的是 medium 和 high 抓到了一个 xhigh 和 max 都漏掉的 bug：async callback 跑在了 synchronous transaction 里面。推理强度越高，模型花的注意力越多，但注意力的分配方向变了——它在更深的地方挖，却可能错过了某些表层问题。

Kilo 在报告里写道：

Raising the reasoning level changed where the model spent its attention more than it changed how much the model checked.
推理档越高，改变的是模型注意力的分配方向，而不是它检查了多少。

这个结论对日常使用有直接的参考价值：如果你的任务是全面覆盖，不一定要拉满推理强度；如果你想要最高性价比的 Claude 单次审计，xhigh 是目前最合理的选择，max 基本没有理由用。

MiniMax M3 漏掉了什么

13/17 意味着有 4 个问题没有被找到。Kilo 的报告里，M3 漏掉的三个分别是：

无效 JSON 返回 500 而不是 400
数据库初始化代码在 import 时执行，而不是在启动时
event 路由里有一个 async callback 跑在 synchronous transaction 里

值得一提的是，第三个问题（async callback）恰好是 Claude Opus 4.8 medium 和 high 找到、而 xhigh 和 max 也漏掉的那一个——这不是 M3 独有的盲点，更像是高推理强度模型的共同弱点。

这三个问题有个共同特点：它们不是会直接造成安全漏洞或数据丢失的致命问题，更多属于「代码质量和健壮性」层面。相比之下，M3 抓住的那些——返回 stored secret 的接口、签名计算用了不同的字节串、没有认证的路由——每一个都是真正的生产事故隐患。

换句话说，M3 的遗漏是有规律的：大 blocker 全捕到了，漏的是更细的代码实现问题。这不是随机的运气，更像是模型在有限的注意力下做了某种隐式的优先级排序。

对大多数审计场景来说，这个取舍是合理的。如果你的目标是「上线前最后一道安全检查」，$0.07 能找到全部高危问题，剩下的 3 个小问题靠 code review 补；如果你需要一份完整详尽的质量报告，那才是 Claude Opus 4.8 xhigh 的用武之地。

价格墙正在松动

这次测试的结论，放进一个更大的背景里看会更清楚：便宜模型追赶专有模型的速度，远比我们预期的快。

一年前，能做代码审计的模型基本只有 Claude 和 GPT-4 这一档。现在 MiniMax M3 在这个任务上和 Claude Opus 4.8 medium 打平，费用是后者的 1/18。这不是孤例——Gemini Flash、Qwen、DeepSeek 这些模型在各自的基准测试上也在持续逼近顶级专有模型的水位。

差距仍然存在，但它在收窄，而且收窄的速度比价格下降的速度更快。Claude Opus 4.8 xhigh 比 M3 多找了 2 个问题，但贵了将近 30 倍。这 2 个问题值不值 30 倍的价格，取决于你的场景——但这个问题本身在一年前根本不需要问，因为那时候根本没有能与之相比的便宜选项。

Kilo 在报告末尾也点到了这个趋势：

The broader trend worth watching is that cheaper models, including open-weight ones, are improving quickly and getting close to proprietary models like Claude Opus at a much lower price.
更值得关注的趋势是：更便宜的模型，包括开源权重模型，正在快速提升，以远低于 Claude Opus 的价格逼近专有模型的能力水位。

这句话的重量，比测试数据本身更大。

按任务选模型

Kilo 的测试给了一个很实用的决策框架，不用再凭直觉选模型：

大批量或预算有限的审计 → MiniMax M3。$0.07，13/17，5 分钟，主要安全问题全覆盖。
快速过一遍，要 Claude → Opus 4.8 medium。$1.30，同样 13/17，最快，还额外抓到了 async callback in synchronous transaction 这个高档漏掉的问题。
要最完整的单次报告 → Opus 4.8 xhigh。$2.03，15/17，性价比最好的高档选择。
Opus 4.8 max → 基本没有理由用。贵 67%，慢 2 分钟，还不如 xhigh。

背后的逻辑很简单：不同任务对「覆盖率」和「成本」的权衡不一样。一次上线前的快速安全扫描，和一次需要归档留存的完整质量审计，本来就该用不同的模型。问题是过去没有便宜的好选项，只能默认用最贵的。现在选项多了，该想清楚自己真正需要什么。

这也是这次测试真正有价值的地方——不是告诉你哪个模型最好，而是逼着你回答：对你的场景来说，「够用」到底是什么水位。

当然，一个任务、一个代码库不足以说明全部——代码审计只是众多场景里的一种，换成代码生成、重构、调试，结论可能不同。但两件事是清楚的：第一，多个模型在多个基准上都指向同一个方向，便宜模型的追赶不是偶然；第二，别人的测试数据只能给你参考，真正有价值的是拿你自己的任务跑一遍，而不是等别人告诉你答案。