Context engineering
2025-09-19
DL论文
000

https://mp.weixin.qq.com/s/3t4PjpZcMVU1wCO0ThUs2A

本文系统阐述了AI Agent开发中新兴的“上下文工程”(Context Engineering)概念及其核心方法论。随着Agent在实际运行中产生海量工具调用和长程推理(long horizon reasoning),管理冗长上下文成为影响性能、成本和模型能力的关键瓶颈。

核心挑战

  • Agent典型任务需约50次甚至上百次工具调用,导致上下文急速膨胀。
  • 过长上下文不仅可能超出模型上下文窗口限制,更会导致“上下文衰减”(Context Decay),即模型注意力分散、推理能力下降。

五大核心策略

  1. 转移(Offload):将工具调用产生的大量上下文(如网页内容、文档)转移到外部存储(如文件系统),仅在模型中保留摘要或标识符,需时再调用。关键在于生成高质量的摘要以避免信息丢失。
  2. 压缩(Reduce):通过总结(Summarization)或剪裁(Pruning)减少上下文内容。需谨慎操作,最好与Offload结合以确保原始信息可回溯,避免不可逆的信息损失。
  3. 检索(Retrieve):从外部知识库、记忆或文档中动态检索相关信息注入上下文。研究表明,简单的生成式检索(如提供文件列表让Agent自行选择调用)常比复杂的多步RAG流程更有效且成本更低。记忆管理可视为一种特定的检索场景。
  4. 隔离(Isolate):将上下文拆分给多个Agent(Multi-Agent)处理,避免单一Agent过载。此法适用于易并行、只读的任务(如深度研究),但在需要高度协同决策的场景(如编码)中可能引发冲突,需谨慎使用。
  5. 缓存(Cache):利用键值缓存(KV Cache)复用计算过的前缀token,可大幅降低延迟和成本(如Claude Sonnet缓存成本可降10倍)。但缓存仅优化计算效率,无法解决长上下文本身的模型衰减问题。

核心启示与未来方向: 文章引用Hyung Won Chung的“The Bitter Lesson”指出,AI进步的根本驱动力是计算规模(Scaling Law)而非人工设计的复杂结构(归纳偏置)。随着模型能力持续指数级提升(如Claude 3.5的发布),最佳策略是构建灵活、通用、少结构化的系统,而非嵌入过多当前有效的假设,以便更好地适应未来模型的能力。企业应用应倾向于采用透明、可组合的底层编排框架(如Shopify Roast),而非黑箱化的Agent抽象,从而在模型能力追上时释放最大价值。AI Native产品(如Cursor、Windsurf)从零构建的优势正于此显现。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!