2026-05-23 · Paul Lukic · 3 分钟阅读 · ai-costs github-copilot context-optimization llm-efficiency pricing

6 月 1 日，Copilot 改成按 token 计费。你的上下文膨胀，从此是一行账单。

GitHub Copilot 将于 2026 年 6 月 1 日把所有付费方案切换到按使用量的 AI Credits 计费。原本藏在每月 $10 套餐里的 token 浪费，会实时蚕食你的 credit 余额。本文给出数字账，以及代码图谱如何砍掉约 80%。

2026 年 6 月 1 日，GitHub 会按下一个开关，悄无声息地重写每一位 Copilot 付费用户的 AI 编程成本结构。Premium Request Unit（PRU）下线，GitHub AI Credits 上线：每一次 chat、每一次 Copilot Chat 工具调用、每一次 agent 模式步进、每一次 Code Review 都按 token 计入你当月的 credit 余额。

“Copilot Pro：$10/月，包含 $10 的月度 AI Credits。” ——GitHub Copilot is moving to usage-based billing

订阅价没动，下面的算式动了。算式对那些每次回复都多塞 10 万个无关 token 的 AI 助手很不友好。

并排示意图：2026-06-01 前的 Copilot Pro 在 PRU 下显示 premium 配额条、每轮对话的 token 成本被 GitHub 吸收且不可见、超额时回落到便宜模型；右侧 2026-06-01 后的 AI Credits 界面显示 $10 余额正在被消耗、每轮对话明示扣 41 credits、不再有回落

6 月 1 日到底变了什么

五件事，一句话一件：

**按 token 计费，不再按请求。**输入、输出、缓存 token 全算钱，每个模型一套每百万 token 单价。
**1 AI Credit = $0.01 美元。**订阅里包含固定额度：Pro $10、Pro+ $39、Business $19/人、Enterprise $39/人，按月。
代码补全和 Next Edit 仍然免费，不消耗 credit。就是你在编辑器里看到的灰色幽灵文字、Tab 接受那套。
**其它一切都烧 credit。**Chat、agent 模式、多文件编辑、调模型的斜杠命令、Copilot Code Review（顺便还烧 GitHub Actions 分钟数），任何「问助手」交互。
**不再悄悄回落到便宜模型。**PRU 时代的安全网没了。Credit 烧光就只能停手、加钱，或者被管理员的预算策略卡死。

官方费率在 models & pricing 参考文档。按每百万 token 给几个样例（费率随时可能调整）：

模型	输入	缓存	输出
GPT-5 mini（轻量）	$0.25	$0.025	$2.00
GPT-5.4（通用）	$2.50	$0.25	$15.00
Claude Sonnet 4.5（通用）	$3.00	$0.30	$15.00
Gemini 3.5 Flash（轻量）	$1.50	$0.15	$9.00

直接用过 Anthropic、OpenAI、Google 原生 API 的人对这张表不陌生。新鲜的是 一个普通 Copilot Pro 用户，从此开始第一次直面 API 级的成本结构。

原来被遮住的东西，现在出现在你的看板上

PRU 时代，你只知道「premium chat 有限制」，偶尔被节流提示一下。某次具体对话烧了多少 token，你看不见。GitHub 替你吸收波动。

6 月 1 日起，看板上会有「AI Credits 剩余」这个数字。一次塞满上下文的对话，可以肉眼可见地把它往下拽一截。一次 agent 模式跑长，搭配马虎的文件检索，一个下午就能吃掉每月 $10 里不小的一块。

这一刻，上下文膨胀的成本从「厂商后台的事」变成了你的事。

我们在更早一篇关于 AI 工具预算的文章里写过上下文膨胀，那时面向的是直接对接 Anthropic 和 OpenAI API 的自托管 agent 团队。那篇里说的每一件事现在都适用，只多了一条：现在也适用于每一位 $10 Copilot Pro 订阅用户。经济成本沿着供应链一路下传。

算一次：同一轮 chat，两种检索策略

$柱状图对比：关键字检索每轮 chat 41 AI Credits（80 个文件，120k 输入 token，$0.41），代码图谱检索每轮 11 AI Credits（5 个文件，22k 输入 token，$0.11），标注每轮差值 −30 credits$

把同一轮 chat 用两种检索策略算一遍。任务：「新增一个按 ID 获取用户的 GET 端点，带权限校验。」模型：Claude Sonnet 4.5。费率取上表。

**策略 A——关键字/向量检索（多数编辑器今天的默认）。**助手拉进 80 个含 “user”、“endpoint”、“permission”、“route” 的文件。输入约 120,000 token，输出约 3,000，缓存约 20,000（来自本会话早些时候）。

输入：120k × $3.00 / 1M = $0.36
缓存：20k × $0.30 / 1M = $0.006
输出：3k × $15.00 / 1M = $0.045
合计约 $0.41 = 41 AI Credits

**策略 B——代码图谱检索。**助手查一个预先构建的依赖图，拿到正好 5 个文件（user 模型、路由文件、权限中间件、一个测试、一个类型文件）。输入约 22,000 token，输出约 3,000，缓存约 6,000。

输入：22k × $3.00 / 1M = $0.066
缓存：6k × $0.30 / 1M = $0.0018
输出：3k × $15.00 / 1M = $0.045
合计约 $0.11 = 11 AI Credits

单轮省 30 AI Credits，听着不多。一天来 20 次，一周五天。策略 A 在 大约 24 个工作日 就能把 Pro 的整月 $10 烧光。策略 B 还绰绰有余。整年下来，光 Pro 这一档，策略 A 和 B 的差距就是「订阅一直停在 $120」与「订阅加超额冲到 $400–$500」——做同样的工作。

10 人小队、每人 Business（$19/座 = $19 credit/座）这道题更猛。策略 A 在月中第二周就溢出额度。策略 B 不会。

「不再回落便宜模型」这条最伤

PRU 时代，premium 请求烧完后 Copilot 会偷偷换便宜模型继续聊。烦，但你能继续工作。

AI Credits 时代，这条退路没了。原话：

“Fallback experiences eliminated — users no longer drop to cheaper models when exhausted; instead governed by available credits and admin budget controls.”

Credit 烧完，三选一：

停掉付费功能等下个月。
公司卡上付超额。
等管理员加预算——在 Business 和 Enterprise 档，那是一个共享池，谁家失控的 chat 都能把它抽干。

这就是为什么上下文膨胀现在不只是贵，还是个 运营风险。**一个吵闹的会话能把团队同事卡在月底没 agent 模式可用。**优化每轮的 token 成本不再是财务部的小算盘，是「同事今天能不能发版」的问题。

代码图谱怎么砍掉大部分浪费

修法不是更聪明的 prompt、不是换模型、也不是换 RAG 厂商。是给助手一个对「这次任务到底要哪些文件」的精确答案——这是每个检索系统都答错的问题。

代码图谱把你的仓库解析进一个小小的 SQLite 库：节点是文件、类、函数、方法；边是 import、调用、定义。agent 拿到工单后，第一次工具调用就返回这次改动相关的 4–6 个文件——基于你自己代码的 import 和调用结构，不是基于词面匹配或 embedding 相似度。其它文件永远进不了上下文窗口，token 账单跟着掉。

Coograph 给的就是这个：

**开源、MIT、本地运行。**几秒钟构建图。代码不离开你的机器。
**一个 MCP server，覆盖所有支持的 agent。**Claude Code、VS Code Copilot、Codex CLI、OpenCode、Cursor、Windsurf、Aider、Cline 都能查。Copilot Chat 接它的方式跟接任何 MCP server 一样。
get_minimal_context(task) 返回 4–6 个文件而不是 200 个。只有图确实没答案时，agent 才回落到 grep。
**自动更新。**Git 钩子只重新解析 SHA-1 变化的文件。每次提交后毫秒级更新。

不换编辑器、不换模型、不改工作流。只换 agent 看到新任务时 第一次工具调用 做的事——从「全仓 grep」换成「问图」。下游一切跟着变便宜。

6 月 1 日前，这周该做什么

按对你 6 月账单影响大小排序，五件事：

**盘点哪些会话用的是 chat 而不是补全。**补全免费，chat 不免费。如果你「用 Copilot」一半其实是行内灰字，没事——那部分账单是 0。如果一大半是 chat 或 agent 模式，继续往下看。
**打开 GitHub 5 月放出的预览账单。**它会用你 5 月的行为预测 6 月成本。数字吓人的话，你还有一周时间补救。
**给 chat agent 前面装一个代码图谱。**Coograph 大约两分钟就能装好——见 getting started。多数用户在第一次任务上看到 chat token 用量降 60–80%。
**别让 agent 瞎 grep。**如果你们团队的 Copilot Chat 流程开头是「找所有提到 X 的文件」，那一行就是账单。换成 get_minimal_context(task) 或对应工具的等价物。
**给 cost center 设预算上限。**Business 和 Enterprise 管理员 6 月 1 日前就设。当成 AWS 预算告警，不要当成一年一次的采购流程。

一年以后看会是什么样

AI 助手按使用量计费这件事，会像云计算按使用量计费一样最终被驯化。前六个月会很乱。团队会被账单吓到，先怪厂商、再怪助手，最后怪流程。然后他们开始按任务量化 token，就像按请求量化 CPU 一样。

赢这次过渡的团队，是那些把 「上下文窗口里到底进了什么」 当成销售成本（COGS）来认真处理、并相应做埋点的团队。不这么干的团队，会在下一年里要么付超额，要么看着开发者干等下个月的 credit。

好消息：解药很小、本地、开源，今天就能用。坏消息：正是这种「很小的解药」最容易拖到本月预算烧光以后才想起来。

我只用 Copilot 的行内补全，这事影响我吗？

不直接影响。代码补全和 Next Edit 在按使用量计费下仍然免费。如果你完全不碰 Copilot Chat、agent 模式或 Copilot Code Review，订阅费一分不变。只要你开始 chat，影响就开始。

Coograph 能不能也省我的纯补全用量？

补全免费，那边没有 token 可省。Coograph 的价值在 chat 和 agent 流程里——也就是 Copilot 即将开始计费的部分。chat 用得越多，省得越多。

能在 VS Code 的 Copilot Chat 里用代码图谱吗？

能。Copilot Chat 支持 MCP server，Coograph 自带一个独立 MCP server。agent 读文件前先调 get_minimal_context，跟在 Claude Code 或 Codex CLI 上一样。看 code-graph 文档。

买的是 Copilot 年付方案怎么办？

按 GitHub 说法：年付方案在到期前保留 PRU 计价，到期续费时转入按使用量计费。省钱论证仍然成立——只是你的计时是从 6 月开始，还是从你年付到期那天开始的差别。

Coograph 跟 RAG 或 embedding 检索比怎么样？

Embedding 按表面相似度排序；代码图谱按真实结构依赖排序。两者回答不同问题。「哪些文本看起来像这条 prompt」适合文档检索；「从这个函数能到达哪些代码」才是改这个函数前你想要的答案。我们在上下文膨胀那篇里写过区别。

本地跑一个 MCP server 会不会有风险？

Coograph 的 MCP server 开源、本地运行、无网络调用，只读你仓库里的一个 SQLite 文件。我们另外写过 agent shell 审计——见按会话审计日志那篇——想精确知道每个 agent 跑过什么，可以叠在代码图谱之上一起用。

如果你的团队在用 Copilot Chat 或 agent 模式，又没算过单次任务的 token 成本，6 月 1 日前算一遍。然后试一下 Coograph，安装大概两分钟，再算一遍同样的任务。省不下来，一个下午沉没成本。省得下来，相当于把全年的月度 credit 配额给自己回购了。

延伸阅读：上下文膨胀那篇 · Coograph code-graph 文档 · GitHub 公告 · GitHub models & pricing 参考。

分享文章 hacker news reddit

削减你的 AI 编程账单 30–80%。Coograph 采用 MIT 许可、永久免费。Pro 提供定制服务。

立即开始 Coograph Pro