Context engineering

https://mp.weixin.qq.com/s/3t4PjpZcMVU1wCO0ThUs2A

本文系统阐述了AI Agent开发中新兴的“上下文工程”（Context Engineering）概念及其核心方法论。随着Agent在实际运行中产生海量工具调用和长程推理（long horizon reasoning），管理冗长上下文成为影响性能、成本和模型能力的关键瓶颈。

核心挑战：

Agent典型任务需约50次甚至上百次工具调用，导致上下文急速膨胀。
过长上下文不仅可能超出模型上下文窗口限制，更会导致“上下文衰减”（Context Decay），即模型注意力分散、推理能力下降。

五大核心策略：

转移（Offload）：将工具调用产生的大量上下文（如网页内容、文档）转移到外部存储（如文件系统），仅在模型中保留摘要或标识符，需时再调用。关键在于生成高质量的摘要以避免信息丢失。
压缩（Reduce）：通过总结（Summarization）或剪裁（Pruning）减少上下文内容。需谨慎操作，最好与Offload结合以确保原始信息可回溯，避免不可逆的信息损失。
检索（Retrieve）：从外部知识库、记忆或文档中动态检索相关信息注入上下文。研究表明，简单的生成式检索（如提供文件列表让Agent自行选择调用）常比复杂的多步RAG流程更有效且成本更低。记忆管理可视为一种特定的检索场景。
隔离（Isolate）：将上下文拆分给多个Agent（Multi-Agent）处理，避免单一Agent过载。此法适用于易并行、只读的任务（如深度研究），但在需要高度协同决策的场景（如编码）中可能引发冲突，需谨慎使用。
缓存（Cache）：利用键值缓存（KV Cache）复用计算过的前缀token，可大幅降低延迟和成本（如Claude Sonnet缓存成本可降10倍）。但缓存仅优化计算效率，无法解决长上下文本身的模型衰减问题。

核心启示与未来方向：文章引用Hyung Won Chung的“The Bitter Lesson”指出，AI进步的根本驱动力是计算规模（Scaling Law）而非人工设计的复杂结构（归纳偏置）。随着模型能力持续指数级提升（如Claude 3.5的发布），最佳策略是构建灵活、通用、少结构化的系统，而非嵌入过多当前有效的假设，以便更好地适应未来模型的能力。企业应用应倾向于采用透明、可组合的底层编排框架（如Shopify Roast），而非黑箱化的Agent抽象，从而在模型能力追上时释放最大价值。AI Native产品（如Cursor、Windsurf）从零构建的优势正于此显现。