Jiayun's Blog

探索与分享

一、Prompt Engineering已死?

2023年,“Prompt Engineering"是AI行业最热门的技能。2026年,一个新术语正在取代它的位置:Context Engineering(上下文工程)。

这不是新瓶装旧酒。两者之间有本质区别:

  • Prompt Engineering关注的是"怎么问”——措辞、格式、Few-shot示例
  • Context Engineering关注的是"给什么看"——在百万Token的上下文窗口中,如何选择、组织和管理信息

当模型的上下文窗口从4K扩展到1M(DeepSeek V4、GPT-5.5均已支持),核心瓶颈不再是"模型能处理多少信息",而是**“什么信息值得放进上下文”**。

QCon AI Boston 2026的议程将Context Engineering列为核心主题之一,与Agent可靠性、推理经济学并列。这不是学术概念,而是工程实践的转向。

二、Context Engineering的三层架构

第一层:信息检索与选择

这是传统RAG(Retrieval-Augmented Generation)的升级版。关键问题不再是"能不能检索",而是"检索什么、检索多少"。

Machine Learning Mastery总结的5种长上下文RAG技术揭示了核心挑战:

技术适用场景关键权衡
层级检索大型文档库召回率 vs 精度
上下文压缩Token预算有限信息损失 vs 成本
混合搜索多类型数据复杂度 vs 覆盖率
查询重写模糊用户意图延迟 vs 准确性
自适应分块异构文档粒度 vs 连贯性

核心洞察:当上下文窗口足够大时,“检索"的主要目标不再是"找到相关信息”,而是"过滤无关信息"。 放入太多噪声信息反而会降低模型输出质量——这就是所谓的"Context Rot"(上下文腐化)。

第二层:Agent记忆系统

AI Agent的记忆管理是Context Engineering的核心难题。Machine Learning Mastery将Agent记忆分为三个层次:

短期记忆(Working Memory): 当前对话的上下文,类似人类的工作记忆。每次交互都会更新,但容量有限。

长期记忆(Persistent Memory): 跨会话持久化的信息——用户偏好、历史决策、学到的模式。Cloudflare在Agents Week 2026发布的Agent Memory服务就是解决这个问题的基础设施。

情景记忆(Episodic Memory): 对过去具体事件的记忆。Agent需要记住"上次遇到类似错误时是怎么解决的",而不仅仅是抽象的知识。

Cloudflare的技术博客指出了一个关键问题:即使上下文窗口扩展到100万Token以上,Context Rot(上下文腐化)仍然是未解决的问题。 越来越多的Token并不意味着越来越好的理解——模型在超长上下文中容易"迷路",对关键信息的关注度反而下降。

这就是为什么记忆系统不能简单地"把所有历史对话塞进上下文",而需要智能地压缩、摘要和选择性召回。

第三层:推理缓存与成本优化

Machine Learning Mastery的推理缓存完整指南揭示了一个容易被忽视的优化层:缓存不仅降低成本,更重要的是降低延迟。

在Agent场景下,一个任务可能需要10-20次模型调用,每次调用都要传入大量重复的上下文(系统提示、工具定义、历史交互)。推理缓存可以将这些重复部分的处理时间从毫秒级降到微秒级,对Agent的端到端响应时间产生显著影响。

Apple ML Research的最新论文"Can Large Language Models Understand Context?“提出了一个更根本的问题:模型真的"理解"了上下文中的信息吗? 还是只是在做模式匹配?这个问题的答案将决定Context Engineering的理论上限在哪里。

三、小模型 + 好上下文 > 大模型 + 差上下文

一个反直觉的发现正在被越来越多的实践验证:精心设计上下文的小模型,往往比粗暴使用的大模型表现更好。

arXiv上发表的Nautile-370M模型(仅3.71亿参数)展示了一种混合架构:将线性时间复杂度的光谱序列算子与传统Transformer层交替使用,在严格的参数和推理预算下实现了高效推理。

这个方向的意义在于:如果我们能更好地管理上下文,就不需要那么大的模型。 这直接关系到AI的民主化——不是每个人都能负担得起GPT-5.5的API费用,但一个经过精心上下文工程的开源小模型可能就够用了。

四、实战框架:如何做好Context Engineering

基于多个来源的最佳实践,我总结了一个可执行的Context Engineering框架:

步骤1:上下文审计

首先搞清楚你当前的Agent或应用在上下文中放了什么:

  • 系统提示占了多少Token?
  • 检索到的文档有多少是真正相关的?
  • 历史对话中有多少是冗余的?

步骤2:信息分层

将信息按重要性和时效性分层:

  • Core Context(核心上下文):每次必须包含,如系统指令、工具定义
  • Retrieved Context(检索上下文):按需检索,如相关文档、代码片段
  • Memory Context(记忆上下文):从长期记忆中选择性召回
  • Ephemeral Context(临时上下文):仅当前交互相关,用完丢弃

步骤3:压缩策略

对每一层应用不同的压缩策略:

  • Core Context:精简到最小必要集合
  • Retrieved Context:用摘要替代全文,保留源链接用于深入查询
  • Memory Context:使用结构化摘要而非原始对话记录
  • Ephemeral Context:设置TTL(Time-to-Live),超时自动清除

步骤4:监控与迭代

建立上下文质量的度量指标:

  • 上下文利用率:模型实际使用了多少上下文信息
  • 上下文-输出相关性:输出质量与输入上下文的相关性
  • Token效率:每有效输出Token消耗的输入Token数

五、预判

Context Engineering将在2027年之前成为正式的工程学科,拥有自己的工具链、最佳实践和专业认证。就像数据工程从数据科学中分化出来一样,Context Engineering将从AI应用开发中独立成为一个专业方向。

核心原因:模型能力的提升已经进入收益递减阶段,而上下文管理的优化空间仍然巨大。 未来AI应用的竞争力差距将更多来自"谁的上下文管理得更好”,而非"谁用了更大的模型"。

给开发者的行动建议:现在开始系统学习RAG优化、Agent记忆架构和推理缓存技术。 这些技能在12个月后的价值将远超"掌握最新模型的API"。


参考来源

  • Machine Learning Mastery:Effective Context Engineering for AI Agents
  • Machine Learning Mastery:AI Agent Memory Explained in 3 Levels of Difficulty
  • Machine Learning Mastery:The Complete Guide to Inference Caching in LLMs
  • Machine Learning Mastery:5 Techniques for Efficient Long-Context RAG
  • Cloudflare Blog:Agents that remember - introducing Agent Memory
  • Apple ML Research:Can Large Language Models Understand Context?
  • Latent Space AINews:Tasteful Tokenmaxxing(Context Engineering讨论)
  • InfoQ:QCon AI Boston 2026 - Context Engineering议题
  • arXiv:Nautile-370M - Spectral Memory Meets Attention in a Small Reasoning Model