平民价格用旗舰模型的窗口期结束了

平民价格用旗舰模型的窗口期结束了

TL;DR:2024 年底到 2025 年初,AI 编程工具曾以远低于成本的价格开放旗舰模型访问权限。那个窗口正在系统性地关闭,本文用完整的数据还原这个过程。

2024 年底,你花 20 美元 订一个 Cursor Pro,可以全天调用 Claude Sonnet 写代码,500 次快速请求用完之后还有无限慢速请求兜底,真实 API 价值轻松超过 100 美元。同一时间,GitHub Copilot 10 美元/月,代码补全没有任何请求上限;Claude Pro 20 美元/月,几乎感受不到速率限制。

那不是正常的市场定价,那是一场补贴战。

现在回头看,2024 年底到 2025 年初是一段历史性的异常窗口。各平台用低于成本的价格抢占开发者心智,AI 编程工具的「真实价格」被人为压低了。那个窗口,正在系统性地关闭。

黄金窗口期:那时候到底有多便宜

用数据说话。以下是窗口期内主要工具的实际权益:

工具价格核心权益时间节点
Cursor Pro20 美元/月500 次快速请求 + 无限慢速请求(Claude Sonnet/GPT-4o)~2025 年 6 月前
GitHub Copilot Individual10 美元/月无限代码补全,无任何请求上限2022 年 6 月上线
Windsurf Pro10 美元/月1000 次 Cascade agentic 步骤2024 年 11 月 -12 月
Claude Pro20 美元/月几乎无感知的速率限制,实际可全天使用~2025 年初前
GLM Coding Lite20 元/月(年付 240 元)大量 Coding 请求配额2025 年底 -2026 年 2 月前
阿里云 Qwen Lite7.9 元首月,40 元/月18000 次请求/月,支持多家旗舰模型2026 年 2 月 -4 月

「无限慢速请求」是理解当时价值的关键。Cursor 的慢速队列意味着你只要不急,可以不限量地调用 Claude Sonnet,20 美元/月换来的是真正的旗舰模型全天访问权。Augment Code 后来在公告里亲自说出了真相:有用户每小时发 335 个请求,持续整整 30 天,平台实际成本约 15000 美元,但该用户只付了 250 美元。

整个行业都在用同样的逻辑运转。

窗口是怎么一步步关上的

这不是某一家平台的单独决定,而是整个行业在同一个压力下的连锁反应。从 2025 年中开始,收紧的动作一个接一个。

2025 年 6 月:Cursor 打响第一枪

2025 年 6 月 16 日,Cursor 悄悄上线了新计费方式,没有提前通知。原来的 500 次快速请求 + 无限慢速请求,变成了 20 美元 的 API 额度池,按底层模型的实际 API 价格扣费。换算下来,20 美元 大约能换 225 次 Claude Sonnet 4 请求,无限慢速请求彻底消失。

用户账单暴增。部分重度用户发现,过去一个月的实际消耗远超 20 美元。

近三周后,CEO Michael Truell 在 官方博客 公开道歉,承诺退还过去三周的超额账单,联系邮箱 pro-pricing@cursor.com。道歉本身说明了问题有多严重——用户不是在抱怨涨价,而是在抱怨被突然改变了规则。

9 月,Cursor 再次调整:Teams 计划转为 API 计费,Auto 模式对个人用户也取消无限制。

2025 年 7 月:Anthropic 悄悄加了速率限制

2025 年 7 月 17 日,Anthropic 在没有通知用户的情况下,对 Claude Code 上线了速率限制。TechCrunch 报道 之后,Anthropic 才在 7 月 28 日于 官方 X 账号 正式宣布:8 月 28 日起实施每周速率上限。

官方说「预计影响不到 5% 的用户」。但 Pro 20 美元/月 的用户此后无法访问 Opus 系列,Sonnet 4 也有每周 40-80 小时的使用上限。

2025 年 10 月:Augment Code 转 credit 制,并说出了行业的真相

2025 年 10 月 20 日,Augment Code 官方宣布 从按消息计费切换到 credit 制。公告里有一句话值得被记住:

“One Max plan user issued 335 requests/hour for 30 days, costing ~15000 美元/month vs. 250 美元 paid.”

每月付 250 美元,平台实际承担 15000 美元 的成本。这不是个例,是整个订阅制模式的结构性问题。按消息计费时,简单任务和复杂的 agentic 任务对用户来说一样贵,对平台来说成本却相差几十倍。

2026 年 2 月:国内「涨价第一枪」

国内的 Coding Plan 订阅制本身是 2025 年底才出现的新物种,GLM 是先驱,阿里、百度、字节随后在 2026 年 2 月集中跟进,打出 7.9 元首月的价格战。

但这场价格战只持续了不到三个月。

2026 年 2 月 12 日,智谱 GLM 率先涨价,Coding Plan 各档位涨幅 30% 以上,首购优惠同步取消。国内开发者戏称这是「白菜价时代终结的第一枪」。

2026 年 3 月:Windsurf Pro 涨价并改变计费模式

2026 年 3 月 19 日,Windsurf 发布 官方公告,Pro 计划从 15 美元/月涨至 20 美元/月,同时废除 credit 制,改为不透明的 quota 制——每个模型按标注成本等级,用户无法精确预算消耗。新增 200 美元/月 Max 计划面向重度用户。社区反馈单次 Claude Opus 4.6 代码审查就能吃掉当周 8% 的配额。

2026 年 3 月:腾讯云混元涨价 463%

2026 年 3 月 11 日,腾讯云发布 官方公告,对混元系列模型大幅调价,3 月 13 日生效:

模型调整前(元/千 tokens)调整后(元/千 tokens)涨幅
HY2.0 Instruct 输入0.00080.004505+463%
HY2.0 Instruct 输出0.0020.01113+456%
HY2.0 Think 输入0.0010.0053+430%
HY2.0 Think 输出0.0040.0212+430%

同日,GLM 5、MiniMax 2.5、Kimi 2.5 结束免费公测,转为按量计费。

3 月 18 日,阿里云和百度智能云同日宣布 AI 算力产品涨价,幅度 5%-34%,4 月 18 日生效。4 月 9 日,腾讯云再次宣布算力产品上调 5%,5 月 9 日生效。

2026 年 4 月:GitHub Copilot 的三连击

2026 年 4 月 20 日,GitHub 发布 官方公告,一次性宣布三件事:

  • Opus 系列模型从 Pro 计划全部移除,仅 Pro+(约 39 美元/月)保留 Opus 4.7
  • Pro、Pro+、Student 计划暂停新用户注册
  • 引入 Session 限制和 7 日 token 上限两种新限额机制

VP of Product Joe Binder 在公告中直接说明原因:「Agentic workflows have dramatically increased compute demands, with some single requests exceeding the cost of an entire plan.」(agentic 工作流大幅推高了算力需求,单次请求的成本已经超过整个订阅计划的价格。)

2026 年 4 月:阿里云 Qwen Lite 停售,GLM 限制非 Coding 场景

4 月 13 日,阿里云 Qwen Coding Plan Lite 停止续费;4 月 15 日,免费调用额度从 1000 次/天削减至 100 次/天。

Z.AI(智谱 GLM 海外版)同期上线非 Coding 场景检测机制,官方使用协议 明确:三次违规使用非 Coding 场景,永久封号。

2026 年 4 月底:Qoder 全线翻倍

4 月 30 日,Qoder 新定价生效,幅度最为直接:

计划原价新价
Pro10 美元/月20 美元/月
Pro+30 美元/月60 美元/月
Ultra100 美元/月200 美元/月
Add-on Credits10 美元/1000 credits20 美元/1000 credits

变相涨价比明着涨更值得警惕

上面列出的这些,都是可以被感知的变化——价格数字变了,权益缩水了,用户看到账单就知道。但还有一种涨价方式更隐蔽:价格不变,模型悄悄变贵了。

Opus 4.7:更贵、更容易出错

Claude Opus 4.7 发布后,有开发者注意到账单异常,于是建了一个社区统计网站 tokens.billchambers.me,专门收集真实用户的 Opus 4.6 与 4.7 单次请求 token 消耗对比。

截至统计时,766 次真实提交显示:

  • Opus 4.7 平均每次请求比 4.6 多消耗 36.2% 的 token
  • 平均单次请求从 354 tokens 增长到 457 tokens
  • 成本同步上涨 36.2%

这不是官方通知,也不是定价调整,就是模型换了一代,每次调用悄悄贵了三分之一。

更关键的是,token 消耗增加的同时,准确率反而下降了。根据用户实测数据,Opus 4.7 一次做对的成功率约为 74.5%,而 4.6 是 83.8%。成功率下降意味着需要更多次重试,而每次重试又是一笔 token 费用。

实际使用成本的涨幅,远不止账面上的 36%。

订阅制是一种错觉

这背后有一个根本性的问题:订阅制掩盖了真实成本。

你每月付 20 美元,感觉买到了一个固定的服务。但平台真正出售的是算力,而算力的价格随模型能力指数增长。当模型从 Claude 3.5 Sonnet 进化到 Opus 4.7,单次请求的实际计算成本可能已经翻了几倍,但订阅价格的数字没变。

平台有两种方式消化这个成本差:一是降低每月可用量,二是让新模型每次消耗更多 token。两种方式都不会触发用户的「涨价警觉」,但实际上都是在变相转移成本。

Anthropic 没有宣布 Claude Pro 涨价。但 2025 年 4 月推出 Claude Max(100 美元/月和 200 美元/月)这件事本身,就已经默认承认了:20 美元 的 Pro 计划已经不够用了。

为什么会这样

这一轮集中收紧,表面上看是各家平台的独立决策,背后是同一个物理约束在起作用。

Token 消耗在爆炸式增长

AI agent 的普及从根本上改变了 token 消耗的量级。传统的 AI 问答是单轮交互,一次对话消耗几百个 token;而 agentic 工作流是多步骤、长链路的任务执行,同等长度的编程任务,token 消耗量是普通对话的 10-50 倍。

数字摆在这里:中国市场日均 token 调用量从 2024 年初的约 1000 亿,增长到 2025 年底的 100 万亿,再到 2026 年 3 月突破 140 万亿——两年内增长超过 1000 倍。这不是线性增长,是指数爆炸。

GitHub Copilot VP Joe Binder 的那句话是最直接的注脚:单次 agentic 请求的成本,已经超过了整个订阅计划的价格。

硬件成本同步上涨

需求爆炸的同时,上游成本也在上涨。市场研究机构 TrendForce 的数据显示,2026 年第一季度 DRAM 合约价上涨 90%-95%,NAND 闪存上涨 55%-60%。GPU 供给因出口管制和需求爆炸持续紧张,算力获取成本居高不下。

这是为什么阿里云、百度云、腾讯云会在 2026 年 3 月同一时间段宣布算力产品涨价——不是巧合,是整个供应链在同一时刻传导到了终端。

补贴换用户的逻辑走到了尽头

2023-2024 年的低价策略,本质是用资本补贴换开发者心智占领。逻辑是:先让开发者养成使用习惯,形成工作流依赖,之后再调整定价。

Augment Code 公告里那个极端案例——250 美元 付费背后 15000 美元 的实际成本——不是偶然,是整个行业商业模式的缩影。资本市场对亏损的容忍度正在收窄,平台必须找到出口。

能力军备竞赛与经济可行性之间的裂缝

这背后有一个更深的矛盾还没有被正视。

AI 行业的开发逻辑,本质上像 F1 赛车——不惜一切代价榨取性能,成本不是约束条件,能力才是。GPT-4 训练成本据 Sam Altman 本人在 MIT 活动上确认 超过 1 美元 亿;Grok 4 据 Epoch AI 估算 约 4 美元.9 亿,同时消耗 3.1 亿度电、7.5 亿升水。而 Epoch AI 的另一项研究显示,大型模型训练成本每八个月翻一倍,这条曲线没有放缓的迹象。F1 车队每年烧几亿欧元,但没人指望用 F1 赛车上下班。

问题是,AI 行业在用 F1 的逻辑开发,却在用「替代普通工人」的故事融资和宣传。真正在生产环境里被大规模使用的,是 Sonnet、Gemini Flash 这类「够用、便宜、可靠」的模型——丰田卡罗拉,不是 F1 赛车。

能力军备竞赛和经济可行性之间的鸿沟,是这轮涨价的底层背景,也是它不会轻易结束的原因。

涨价到此为止了吗

这是一个值得正视的问题。

收支平衡了吗? 未必。腾讯云混元 API 涨了 460%,听起来触目惊心,但别忘了它的起点是什么——为了打价格战压到骨折的 0.0008 元/千 tokens。涨价之后的价格,可能仍然没有覆盖真实的算力成本,只是从「严重亏损」变成「亏损少一些」。

股东的利润呢? 目前各大 AI 平台公开财报里,AI 业务大多仍在亏损或勉强持平。Anthropic、OpenAI 尚未盈利,国内厂商的 AI 业务也普遍依赖母公司输血。当资本市场开始要求 AI 业务独立造血,现在的定价仍然可能只是过渡,而不是终点。

竞争格局会不会再次打破价格? 有可能。只要还有新进入者愿意用补贴换市场份额,局部的价格战就会重演。但这种窗口会越来越短——上一轮国内价格战从启动到结束不过三个月。

模型能力提升会降低成本吗? 长期看,推理效率的提升确实会压低单次调用成本。但更强的模型往往意味着更长的任务链路和更高的 token 消耗,能力提升和成本下降未必同步。Opus 4.7 就是最近的反例——更新的模型,反而更贵。

值得一提的是,并非所有玩家都走过这条「补贴→收紧」的路。小米 MiMo 在 2026 年 4 月 3 日推出 Token Plan 时,起步价就是 39 元/月,没有 7.9 元首月、没有半价首购,直接按可持续定价入场。

套餐价格Credits适用场景
Lite¥39/月6000 万轻度探索
Standard¥99/月2 亿日常开发
Pro¥329/月7 亿深度嵌入工作流
Max¥659/月16 亿全天候高强度使用

没有 5 小时 token 限额,按 token 实际消耗扣减 credit,逻辑透明。当初 MiMo 定价出来时,社区里确实有人嫌贵。现在回头看,这个定价反而是行业正在回归的那个价位。

结论是:这轮涨价不是终点,更像是一次定价重置的开始。平台正在从「补贴期定价」向「可持续定价」过渡,而这个过渡过程还没有结束。

窗口关了,不代表工具没价值

「平民价格用旗舰模型」的窗口关了,但这件事本身不是悲剧。

悲剧是把补贴期当成了常态,把异常当成了基准线,然后在预期落空时感到被背叛。

那段时间确实存在过。20 美元 全天跑 Claude Sonnet,7.9 元用上阿里云的多家旗舰模型,这些不是谎言,只是一场有时间限制的促销,只不过没有人在显眼的地方写上「限时」两个字。

现在需要重新校准的,是预期,不是对 AI 编程工具价值本身的判断。

算清楚账。 token 正在成为企业和个人开发者的真实成本项。IDC 的判断是,未来三年内,是否具备「token 精细化管理能力」,将成为衡量 AI 使用成熟度的重要指标。在意识到这一点之前,很多人的账单已经在悄悄增长了。

选对工具,而不是选最强的工具。 Opus 4.7 比 4.6 贵 36.2%,但准确率反而更低。最新不等于最适合,旗舰不等于最高性价比。对大多数日常编程任务来说,Sonnet 级别的模型已经够用,强行用 Opus 是在花更多的钱换更差的结果。

对「无限」保持警惕。 凡是订阅制里出现「无限」二字,都值得追问:无限到什么程度?有没有隐藏的速率限制、session 限制、weekly token 上限?Augment Code 的案例说明,「无限」有时候只是平台在赌你用不到那个量。

窗口关了。但工具还在,需求还在,只是定价回归了它本来应该在的位置。

参考资料

国际平台官方公告

国内平台官方公告

训练成本数据

社区数据

(转载本站文章请注明作者和出处乱世浮生,请勿用于任何商业用途)

comments powered by Disqus