6 月 1 日,Copilot 改成按 token 计费。你的上下文膨胀,从此是一行账单。
GitHub Copilot 将于 2026 年 6 月 1 日把所有付费方案切换到按使用量的 AI Credits 计费。原本藏在每月 $10 套餐里的 token 浪费,会实时蚕食你的 credit 余额。本文给出数字账,以及代码图谱如何砍掉约 80%。
2026 年 6 月 1 日,GitHub 会按下一个开关,悄无声息地重写每一位 Copilot 付费用户的 AI 编程成本结构。Premium Request Unit(PRU)下线,GitHub AI Credits 上线:每一次 chat、每一次 Copilot Chat 工具调用、每一次 agent 模式步进、每一次 Code Review 都按 token 计入你当月的 credit 余额。
“Copilot Pro:$10/月,包含 $10 的月度 AI Credits。” ——GitHub Copilot is moving to usage-based billing
订阅价没动,下面的算式动了。算式对那些每次回复都多塞 10 万个无关 token 的 AI 助手很不友好。
6 月 1 日到底变了什么
五件事,一句话一件:
- **按 token 计费,不再按请求。**输入、输出、缓存 token 全算钱,每个模型一套每百万 token 单价。
- **1 AI Credit = $0.01 美元。**订阅里包含固定额度:Pro $10、Pro+ $39、Business $19/人、Enterprise $39/人,按月。
- 代码补全和 Next Edit 仍然免费,不消耗 credit。就是你在编辑器里看到的灰色幽灵文字、Tab 接受那套。
- **其它一切都烧 credit。**Chat、agent 模式、多文件编辑、调模型的斜杠命令、Copilot Code Review(顺便还烧 GitHub Actions 分钟数),任何「问助手」交互。
- **不再悄悄回落到便宜模型。**PRU 时代的安全网没了。Credit 烧光就只能停手、加钱,或者被管理员的预算策略卡死。
官方费率在 models & pricing 参考文档。按每百万 token 给几个样例(费率随时可能调整):
| 模型 | 输入 | 缓存 | 输出 |
|---|---|---|---|
| GPT-5 mini(轻量) | $0.25 | $0.025 | $2.00 |
| GPT-5.4(通用) | $2.50 | $0.25 | $15.00 |
| Claude Sonnet 4.5(通用) | $3.00 | $0.30 | $15.00 |
| Gemini 3.5 Flash(轻量) | $1.50 | $0.15 | $9.00 |
直接用过 Anthropic、OpenAI、Google 原生 API 的人对这张表不陌生。新鲜的是 一个普通 Copilot Pro 用户,从此开始第一次直面 API 级的成本结构。
原来被遮住的东西,现在出现在你的看板上
PRU 时代,你只知道「premium chat 有限制」,偶尔被节流提示一下。某次具体对话烧了多少 token,你看不见。GitHub 替你吸收波动。
6 月 1 日起,看板上会有「AI Credits 剩余」这个数字。一次塞满上下文的对话,可以肉眼可见地把它往下拽一截。一次 agent 模式跑长,搭配马虎的文件检索,一个下午就能吃掉每月 $10 里不小的一块。
这一刻,上下文膨胀的成本从「厂商后台的事」变成了你的事。
我们在 更早一篇关于 AI 工具预算的文章 里写过上下文膨胀,那时面向的是直接对接 Anthropic 和 OpenAI API 的自托管 agent 团队。那篇里说的每一件事现在都适用,只多了一条:现在也适用于每一位 $10 Copilot Pro 订阅用户。经济成本沿着供应链一路下传。
算一次:同一轮 chat,两种检索策略
把同一轮 chat 用两种检索策略算一遍。任务:「新增一个按 ID 获取用户的 GET 端点,带权限校验。」模型:Claude Sonnet 4.5。费率取上表。
**策略 A——关键字/向量检索(多数编辑器今天的默认)。**助手拉进 80 个含 “user”、“endpoint”、“permission”、“route” 的文件。输入约 120,000 token,输出约 3,000,缓存约 20,000(来自本会话早些时候)。
- 输入:120k × $3.00 / 1M = $0.36
- 缓存:20k × $0.30 / 1M = $0.006
- 输出:3k × $15.00 / 1M = $0.045
- 合计约 $0.41 = 41 AI Credits
**策略 B——代码图谱检索。**助手查一个预先构建的依赖图,拿到正好 5 个文件(user 模型、路由文件、权限中间件、一个测试、一个类型文件)。输入约 22,000 token,输出约 3,000,缓存约 6,000。
- 输入:22k × $3.00 / 1M = $0.066
- 缓存:6k × $0.30 / 1M = $0.0018
- 输出:3k × $15.00 / 1M = $0.045
- 合计约 $0.11 = 11 AI Credits
单轮省 30 AI Credits,听着不多。一天来 20 次,一周五天。策略 A 在 大约 24 个工作日 就能把 Pro 的整月 $10 烧光。策略 B 还绰绰有余。整年下来,光 Pro 这一档,策略 A 和 B 的差距就是「订阅一直停在 $120」与「订阅加超额冲到 $400–$500」——做同样的工作。
10 人小队、每人 Business($19/座 = $19 credit/座)这道题更猛。策略 A 在月中第二周就溢出额度。策略 B 不会。
「不再回落便宜模型」这条最伤
PRU 时代,premium 请求烧完后 Copilot 会偷偷换便宜模型继续聊。烦,但你能继续工作。
AI Credits 时代,这条退路没了。原话:
“Fallback experiences eliminated — users no longer drop to cheaper models when exhausted; instead governed by available credits and admin budget controls.”
Credit 烧完,三选一:
- 停掉付费功能等下个月。
- 公司卡上付超额。
- 等管理员加预算——在 Business 和 Enterprise 档,那是一个共享池,谁家失控的 chat 都能把它抽干。
这就是为什么上下文膨胀现在不只是贵,还是个 运营风险。**一个吵闹的会话能把团队同事卡在月底没 agent 模式可用。**优化每轮的 token 成本不再是财务部的小算盘,是「同事今天能不能发版」的问题。
代码图谱怎么砍掉大部分浪费
修法不是更聪明的 prompt、不是换模型、也不是换 RAG 厂商。是给助手一个对「这次任务到底要哪些文件」的精确答案——这是每个检索系统都答错的问题。
代码图谱把你的仓库解析进一个小小的 SQLite 库:节点是文件、类、函数、方法;边是 import、调用、定义。agent 拿到工单后,第一次工具调用就返回这次改动相关的 4–6 个文件——基于你自己代码的 import 和调用结构,不是基于词面匹配或 embedding 相似度。其它文件永远进不了上下文窗口,token 账单跟着掉。
Coograph 给的就是这个:
- **开源、MIT、本地运行。**几秒钟构建图。代码不离开你的机器。
- **一个 MCP server,覆盖所有支持的 agent。**Claude Code、VS Code Copilot、Codex CLI、OpenCode、Cursor、Windsurf、Aider、Cline 都能查。Copilot Chat 接它的方式跟接任何 MCP server 一样。
get_minimal_context(task)返回 4–6 个文件而不是 200 个。只有图确实没答案时,agent 才回落到 grep。- **自动更新。**Git 钩子只重新解析 SHA-1 变化的文件。每次提交后毫秒级更新。
不换编辑器、不换模型、不改工作流。只换 agent 看到新任务时 第一次工具调用 做的事——从「全仓 grep」换成「问图」。下游一切跟着变便宜。
6 月 1 日前,这周该做什么
按对你 6 月账单影响大小排序,五件事:
- **盘点哪些会话用的是 chat 而不是补全。**补全免费,chat 不免费。如果你「用 Copilot」一半其实是行内灰字,没事——那部分账单是 0。如果一大半是 chat 或 agent 模式,继续往下看。
- **打开 GitHub 5 月放出的预览账单。**它会用你 5 月的行为预测 6 月成本。数字吓人的话,你还有一周时间补救。
- **给 chat agent 前面装一个代码图谱。**Coograph 大约两分钟就能装好——见 getting started。多数用户在第一次任务上看到 chat token 用量降 60–80%。
- **别让 agent 瞎 grep。**如果你们团队的 Copilot Chat 流程开头是「找所有提到 X 的文件」,那一行就是账单。换成
get_minimal_context(task)或对应工具的等价物。 - **给 cost center 设预算上限。**Business 和 Enterprise 管理员 6 月 1 日前就设。当成 AWS 预算告警,不要当成一年一次的采购流程。
一年以后看会是什么样
AI 助手按使用量计费这件事,会像云计算按使用量计费一样最终被驯化。前六个月会很乱。团队会被账单吓到,先怪厂商、再怪助手,最后怪流程。然后他们开始按任务量化 token,就像按请求量化 CPU 一样。
赢这次过渡的团队,是那些把 「上下文窗口里到底进了什么」 当成销售成本(COGS)来认真处理、并相应做埋点的团队。不这么干的团队,会在下一年里要么付超额,要么看着开发者干等下个月的 credit。
好消息:解药很小、本地、开源,今天就能用。坏消息:正是这种「很小的解药」最容易拖到本月预算烧光以后才想起来。
我只用 Copilot 的行内补全,这事影响我吗?
不直接影响。代码补全和 Next Edit 在按使用量计费下仍然免费。如果你完全不碰 Copilot Chat、agent 模式或 Copilot Code Review,订阅费一分不变。只要你开始 chat,影响就开始。
Coograph 能不能也省我的纯补全用量?
补全免费,那边没有 token 可省。Coograph 的价值在 chat 和 agent 流程里——也就是 Copilot 即将开始计费的部分。chat 用得越多,省得越多。
能在 VS Code 的 Copilot Chat 里用代码图谱吗?
能。Copilot Chat 支持 MCP server,Coograph 自带一个独立 MCP server。agent 读文件前先调 get_minimal_context,跟在 Claude Code 或 Codex CLI 上一样。看 code-graph 文档。
买的是 Copilot 年付方案怎么办?
按 GitHub 说法:年付方案在到期前保留 PRU 计价,到期续费时转入按使用量计费。省钱论证仍然成立——只是你的计时是从 6 月开始,还是从你年付到期那天开始的差别。
Coograph 跟 RAG 或 embedding 检索比怎么样?
Embedding 按表面相似度排序;代码图谱按真实结构依赖排序。两者回答不同问题。「哪些文本看起来像这条 prompt」适合文档检索;「从这个函数能到达哪些代码」才是改这个函数前你想要的答案。我们在 上下文膨胀那篇 里写过区别。
本地跑一个 MCP server 会不会有风险?
Coograph 的 MCP server 开源、本地运行、无网络调用,只读你仓库里的一个 SQLite 文件。我们另外写过 agent shell 审计——见 按会话审计日志那篇——想精确知道每个 agent 跑过什么,可以叠在代码图谱之上一起用。
如果你的团队在用 Copilot Chat 或 agent 模式,又没算过单次任务的 token 成本,6 月 1 日前算一遍。然后 试一下 Coograph,安装大概两分钟,再算一遍同样的任务。省不下来,一个下午沉没成本。省得下来,相当于把全年的月度 credit 配额给自己回购了。
延伸阅读:上下文膨胀那篇 · Coograph code-graph 文档 · GitHub 公告 · GitHub models & pricing 参考。
削减你的 AI 编程账单 30–80%。Coograph 采用 MIT 许可、永久免费。Pro 提供定制服务。