本文是我在研究 AI Agent 应用层技术 时的学习整理,涵盖存储、工具生态、提示词工程、上下文管理等关键模块,并绘制了技术地图,方便快速入门和扩展。
背景
在 AI 应用开发中,Agent 是一个能够自主感知、思考、行动的智能体。它不仅是一个模型调用接口,而是一个具备 任务规划、工具调用、上下文管理 能力的系统。 应用层的技术设计决定了一个 Agent 的可扩展性、可维护性和智能表现。
为了更好地系统化学习,我将相关技术拆分成几个核心模块,并总结成一张 技术地图。
- 发大水
- fdsaf
- 213213
- 23213
- fdsafds
- fdsa
Agent 应用层技术地图
mindmap
root((Agent 应用层技术))
存储与持久化层
会话记忆
短期记忆
长期记忆
向量存储
FAISS
Milvus
Weaviate
Pinecone
持久化策略
数据压缩与归档
版本控制
混合检索
关键词 + 向量
工具生态系统
标准化接口
OpenAPI
JSON Schema
插件化系统
动态加载工具
权限控制
跨平台集成
API
数据库
云服务
工具市场
MCP
ChatGPT Plugins
工具执行与管理层
工具调度器
执行策略
并行
顺序
调用链路追踪
执行安全
沙箱
限流
提示词工程
提示结构
角色设定
思维链
Few-shot
动态提示构建
模板管理
自动优化
上下文技术
上下文裁剪
优先级策略
分块与检索
RAG
多模态上下文
上下文融合
消息压缩
摘要化
语义压缩
差分消息
混合压缩
多 Agent 协作
任务分解
协作协议
通信方式
任务规划与推理
ReAct
AutoGPT
计划执行器
监控与反馈
日志分析
用户反馈
策略调整
核心模块解析
存储与持久化层
让 Agent 拥有“记忆”与“可回溯”能力。
会话记忆
短期记忆(上下文缓存,in-memory)
长期记忆(外部存储,例如 Redis、PostgreSQL、MongoDB)
持久化策略
数据压缩与归档(减少存储成本)
混合检索
关键词检索 + 向量检索
增量更新索引
工具生态系统
让 Agent 能调用外部 API、系统资源或其他 AI 工具。
标准化接口协议
OpenAPI、JSON Schema
LangChain Tools、LlamaIndex ToolSpec
插件化系统
动态加载工具(按需启用)
工具权限控制(防止越权)
工具市场与共享
MCP(Model Context Protocol)
ChatGPT Plugins / OpenAI MCP
工具执行与管理层
让 Agent 高效、可控地使用工具。
工具调度器(Tool Scheduler)
决定什么时候调用哪个工具
执行策略
并行执行 vs 顺序执行
超时与重试机制
工具调用链路追踪
日志与可观测性(Tracing)
调用依赖图(DAG)
执行安全
沙箱执行(防止恶意代码)
API 请求速率限制
提示词工程(Prompt Engineering)
优化输入输出,提高 Agent 的任务完成率和质量。
提示结构设计
角色设定(Role Prompt)
思维链(Chain-of-Thought)
Few-shot 示例
动态提示构建
根据上下文自动拼接 Prompt
Prompt 模板管理
版本化与可复用性
提示自动优化
RLHF、自动搜索最佳 Prompt
上下文技术(Context Management)
高效利用模型的上下文窗口,避免超长消息导致成本高或丢信息。
上下文裁剪与优先级
根据相关度选择保留内容
多模态上下文
文本、图片、音频、结构化数据
上下文融合
多来源数据合并成统一上下文
消息压缩(Message Compression)
在有限的上下文长度内,最大化保留信息。
摘要化(Summarization)
对历史消息进行摘要
语义压缩
向量化后用 ID 代替原文
差分消息
只存储变更部分
混合压缩
关键词保留 + 摘要
多 Agent 协作
任务分解与分配(Task Decomposition)
协作协议(Agent-Actor 模型)
通信方式(事件总线、消息队列)
任务规划与推理层(Reasoning & Planning)
ReAct(Reason + Act)模式
AutoGPT / BabyAGI 任务链
计划执行器(Planner/Executor)
技术实现方案
存储与持久化层
这里面的核心难点有 2 点。
- 1: 如何知道在人机对话中,要使用的是
长期记忆还是短期记忆。 - 2: 短期记忆和长期记忆如何进行转换。
短期记忆 vs 长期记忆的本质区别
短期记忆:存储当前会话或最近几轮对话的上下文,容量有限,通常保存在内存或高速缓存中。用于让模型“记住”当前对话状态,保证对话流畅和连贯。
长期记忆:存储用户的历史信息、偏好、常用指令、知识库内容等,可以跨会话调用,容量大,通常存数据库或专门的向量存储。
针对问题1:
- 代码写死判断逻辑
- 机器学习或分类器模型
提示词:
你是一个智能助手,负责回答用户的问题。请结合下面提供的记忆内容给出回答。
【短期记忆】(当前会话的相关上下文):
{short_term_memory}
【长期记忆】(用户的历史信息和偏好):
{long_term_memory}
【用户问题】:
{user_question}
请根据以上信息,理解用户的问题,给出详细且准确的回答。
如果短期记忆和长期记忆有冲突,请优先参考短期记忆。
如果记忆中没有相关信息,可以据实回答或提示用户补充。
回答:
针对问题2:
- 当用户会话超过一定阈值时候,对用户信息进行压缩并归入长期记忆。
工具生态系统
国内 OpenAI 的模型,如果我们只是用,我们就用OpenAI 的通信模型。如果我们要作为 ai 提供商,也要按照 OpenAi 的标准进行相应。【这就是标准吧】
spring:
ai:
openai:
api-key: sk-cd56fbbaxxxxx405dc2ccde2a
# https://help.aliyun.com/zh/model-studio/embedding-interfaces-compatible-with-openai?spm=a2c4g.11186623.0.i1
embedding:
embeddings-path: /v1/embeddings
base-url: https://dashscope.aliyuncs.com/compatible-mode
options:
model: text-embedding-v1
chat:
options:
model: qwen-plus
logprobs: true
base-url: https://dashscope.aliyuncs.com/compatible-mode