2026-05-13 · Paul Lukic · 2 分钟阅读 · ai-costs context-optimization llm-efficiency

上下文膨胀正在掏空你的 AI 工具预算

大多数 AI 编程代理把过多代码塞进上下文窗口，token 成本因此膨胀 5 倍。这篇说明实际代价以及修复方法。

你的 AI 编程代理刚跑完一个任务，消耗了 150,000 token。按 Claude 每 1M 输入 token $0.10 算，这一次 $15。任务只是新增一个 API 端点。

十次里有五次，同样的工作用 30,000 token、$3 就能搞定。

差距不在模型、不在提示词、也不在代理的推理能力。差距在上下文膨胀：喂给 AI 代理远超完成工作所需的代码。大多数团队没察觉这笔税，因为他们把 LLM 成本想成「每 token 一点小费」。但小费会复利。一个团队每天跑 50 个 AI 辅助任务，每个多吃 120,000 个无用 token，每月纯浪费 $18,000。

这不是供应商的问题，是架构问题。可以修。

什么是上下文膨胀？为什么它在烧你的钱？

上下文膨胀发生在 AI 代理为任务取代码时，不理解哪些代码真正重要。代理要给支付模块加一个校验函数。它没拿到支付模块、依赖项、三个相关测试文件，而是拿到 200 个文件：所有带「payment」字样的文件，加上所有语义相似的代码，加上整个文档文件夹——因为向量搜索找到一个边角相关的 README。

代理然后浪费 token 在无关代码里翻找，因为信噪比糟糕做出更差的决策，还得继续追问或重试。你付三次钱：一次为膨胀的上下文，一次为代理在噪声里慢吞吞推理，再一次为返工。

更慢的代理 = 浪费开发者时间

一个起手就带 500 个无关文件的 AI 代理，不只多花 token。它跑得更慢。它在更多噪声里推理。它幻觉更多，因为被无关代码里的矛盾模式搞糊涂。

10 秒的任务变成 30 秒。30 秒的任务变成 2 分钟。对单个等着代理的开发者，两分钟感觉不算什么。但乘上整个团队。如果 5 位工程师每人每天跑 10 个代理任务，每个任务因上下文膨胀延迟 1 分钟，你每天损失 50 个开发者分钟。一年累计 200+ 工程小时盯着加载条。按 $200/小时的全成本算，每位工程师每年损失 $40,000 生产力——按 5 人小组算。

不准确的上下文 = 昂贵的返工

膨胀的上下文导致糟糕的决策。代理被要求「重构这个支付处理函数」，可能看到代码库里三个不同的支付处理函数——一个在遗留单体里，一个在新的微服务里，一个在测试套件里——然后挑错那个。或者它漏掉一个关键依赖，因为相关代码被埋在 500 行无关函数下面。

代理提交修改。代码通过测试（也许）。上线。两周后在生产环境炸了，因为它漏掉某个从未出现在上下文窗口里的模块函数的微妙契约。你花三天调试，再花三天重建。一次修复就是 $40,000 的代价。

量化代价：AI 支出减少 80%

来用一个真实任务。我们做了一个开源基准测试，衡量 AI 代理在一个贴近日常的问题上的表现：给一个真实代码库新增一个 REST API 端点。任务需要理解数据模型、路由层、认证守卫和测试模式。不琐碎，但也不是火箭科学。

基准任务：新增一个 API 端点

Node.js 代码库结构图：150 个文件中突出标注 5 个对 API 端点任务关键的文件

这个代码库是典型的 Node.js 后端，150 个文件、25,000 行代码，分布在模型、路由、中间件和测试里。任务：「新增 GET /api/v1/users/:id 端点，按 ID 返回用户并做权限检查。」代理需要改动五个文件：用户模型、路由文件、一个权限中间件、一个测试文件和一个类型文件。

没有依赖图：每次 $15

并排成本对比：朴素检索（$15，145k token，45 秒） vs 依赖图（$3，28k token，12 秒）

用朴素的关键字检索（大多数 RAG 系统的默认做法），代理取回 140 个文件。包括所有提到「user」的文件，加上所有带「API」或「endpoint」或「GET」的文件，再加上不相关的测试工具、文档和配置。代理每次消耗 145,000 token。

按 Claude 输入价格：每个任务 $15。

代理还做了 12 次工具调用（读文件、搜代码、跑测试），因为它老是找错文件得反复搜。总耗时 45 秒。

用 Coograph：每次 $3

用代码依赖图——一个理解代码之间真实依赖关系的系统——代理精确取回五个文件：用户模型、路由文件、权限中间件、一个测试文件和类型文件。不猜，不噪声。

代理每次消耗 28,000 token。

成本：每个任务 $3。

代理做了 3 次工具调用，12 秒完成。

差距：便宜 80%、快 4 倍、工具调用减少 4 倍。 在我们可复现的基准测试中，这一结论在多个代码库和任务类型上都成立。

一个每周跑 50 个 AI 辅助任务的团队，每周省下 $600，一年 $31,200，仅 LLM API 成本。再加上找回的开发者时间——每周 50 个任务 × 每个省 33 秒——每周收回 28 小时开发者时间。按 $200/小时算，每周 $5,600 的生产力。

你可以在线查看我们的可复现基准测试。

编程代理里「贪婪」上下文搜索的失败

当今 AI 辅助编程的主导模式是「广撒网、松筛选」。RAG 系统取回 top 50 语义相似的代码片段，寄希望代理的推理能忽略垃圾，然后就这么发车了。

关键字和向量搜索为什么不够

关键字搜索是最简单的失败方式。你搜「authentication」，结果你拿到认证逻辑、认证的测试 mock、提到认证的配置文件、关于认证的文档、以及从未重构的旧死代码。向量嵌入搜索找出感觉上语义相似的代码——「这个函数处理用户身份」和「这个函数查询用户数据库」被归为一类——但它不理解它们在你代码库架构里其实是分开的关注点。

两种方法都不理解你的代码实际上一起做什么。它们是统计游戏，不是结构分析。当你需要精度时，统计游戏注定失败。

失败的代价复利累积。代理拿到混乱上下文。它问澄清问题（更多 token、更多延迟）。它做保守的决定以避免幻觉（更少正确的优化、更少交付价值）。或者它带着信心做错决定、提交损坏的代码，你在生产环境调试。

「凑合」上下文的高昂代价

「凑合」上下文是个陷阱。它感觉便宜，因为 95% 的时候代理拿到错代码也能跑通。但剩下 5% 跑不通时，代价是灾难性的。一次通过单元测试却在生产环境破坏集成的错误重构，已经不是 $3 的问题——是 $40,000 的问题。

即使「跑通」时，膨胀的上下文也在降低代理的表现。一个在 200 个文件里游泳找 5 个相关文件的代理，是在噪声里推理。它变慢。它变得不那么有创意。它把边界情况当作幻觉而不是真实约束。你最终拿到技术上正确但次优的代码，缺少本可在干净上下文里找到的性能改进或更好模式。

代码依赖图如何解决上下文膨胀

解法是停止猜哪些代码重要。改为问你的代码库。代码依赖图是一张地图，描述你的代码实际如何协作——哪个函数调哪个、哪个模块导入哪个、哪些数据结构在哪儿被用。

从猜测到精确

当代理被要求新增一个 API 端点，依赖图让你说：「真正相关的就这五个文件。不多不少。」代理不浪费时间取垃圾。它不会混淆来自无关模块的相似模式。它拿到外科手术级的上下文，能以全速推理。

这不是理论。基准测试结果可复现。在五个不同代码库上（Node.js、Python、Go），结论一致：依赖图上下文比统计检索便宜、快 4-5 倍，并且产生更好的代码质量，因为代理的信噪比更高。

善用团队最有价值的资产：代码本身

人们忽略了这点：你的代码库已经包含「哪些代码对这个任务重要」的答案。代码的结构——导入、函数签名、依赖——是你拥有的最可靠的地图。靠它。

当你接入一个代码图（如果你不熟，可以先了解什么是代码图），你不是加一层魔法 AI。你是利用系统的真实形状。帮助团队理解代码库的同一套结构，也帮 AI 代理。同一种语言：代码。

这就是为什么接入依赖图能跨代码库和任务类型生效。你不是在训练模型或调参。你是把已经存在的信息浮现出来。

上下文优化的自建 vs 采购计算

到这儿，一位多疑的创始人会问：「我们要不要自己造一套依赖图系统？」

自建方案的成本

一位资深工程师从零造代码图引擎（解析、依赖分析、图构建、查询 API），周期是 4-6 个月。算 800-1,200 小时 × $250/小时（强工程师的全成本工资）：纯工程成本 $200,000 到 $300,000。再加六周整合到代理框架的工作。你六个月不发布产品。你在解一个基础设施问题。

如果你团队每周跑 50 个 AI 代理任务，每周因上下文膨胀损失 $600，在那个自建周期里累计损失 $30,000。自建的真实成本是 $230,000 到 $330,000。

接入一个开源依赖图

一个为接入设计、MIT 许可的依赖图库，一位工程师一个下午就能插上。你立刻得到精度收益。明天就回到发布产品。

如果你需要企业支持、监控或托管基础设施，Coograph Pro 提供。但开源路径零前期成本，让你在投入预算前先验证 ROI。

想快速上手，文档逐步带你接入。多数团队一天内上线。

这道算术很难反驳。一天买（或接入开源）省 $600/周。或者造六个月，丢掉发布动力，还得花钱。

Coograph 真能在我们的 LLM 账单上省多少？

在我们的基准测试上，Coograph 把 token 消耗砍掉约 80%。一个 AI 代理使用量中等的团队（每周 20-50 个任务），仅 LLM 月省 $2,000–$5,000。再加上找回的开发者时间（代理快 4 倍），ROI 通常一周内转正。

Coograph 会取代 Cursor 或 VS Code Copilot 之类的工具吗？

不会。Coograph 让它们更好。它和现有 AI 代理整合，提供精确、便宜的上下文。你不用改工作流——你正在用的工具会变得更快、更便宜、更准。

是不是只适合大型复杂代码库？

大代码库（100+ 文件）的省钱效果最显著，但速度收益处处可见。精确上下文帮代理避免错误、推理更快，连小项目也能改善产出。团队越小，每一个开发者小时越重要。

实施 Coograph 的工程成本是多少？

开源版采用 MIT 许可，为快速接入而设计。一位开发者通常一个下午能跑通 PoC，一两天内完成生产接入。比自建同类系统快几个数量级。

对闭源代码库或 IP 顾虑怎么处理？

Coograph 完全运行在你的基础设施上——没有代码被送到外部服务器。图在本地基于你的代码库构建，从不离开你的机器。对 IP 或合规要求严格的团队，这是相对云端方案的关键优势。

如果你团队在跑 AI 代理而 LLM 账单一直爬升，上下文膨胀很可能就是元凶。修复不是更好的提示词或更聪明的代理——是精确的上下文。先看 Coograph 立即开始体会接入有多快，或如果你想要内建的企业支持和监控，看看 Coograph Pro。你的下一次成本下降，可能就只差一天工程。

分享文章 hacker news reddit

削减你的 AI 编程账单 30–80%。Coograph 采用 MIT 许可、永久免费。Pro 提供定制服务。

立即开始 Coograph Pro