接触过多个AI和大数据领域项目,AI Agent从早期的知识库,具备一些智能检索能力到现在执行任务编排,开始逐步接管你的手机和电脑。有了本地文件和MCP接口权限后,Agent越来越像一位称职的本地数字员工。不但能理解和执行,还会思考和落地。

一、AI Agent是什么?

AI Agent 是一种具备自主思考与执行能力的智能体,它不只是被动响应指令,而是能基于用户需求,自主进行任务拆解、逻辑规划、上下文记忆,并通过工具调用协议(如 MCP)连接外部能力,在提示词(Prompt)与基础 AI 能力(AI Skills)的支撑下,像人一样完成一整套复杂任务,最终形成从理解需求到落地执行的完整闭环。

1、AI Agent架构和流程图

img

架构说明:

用户层:定义自己的角色,也可以用通用角色告诉AI框架

智能体层:保存上下文,沉底比较好用的智能体作为记忆保存起来,实现标准化和复用能力

工具交互层:通过Agent工具,实现AI提示词的编排,根据需要技能组合、任务编排、调用和规划使用外部MCP,接受用户反馈

指令性:将用户指令变成大模型能听懂的指令

基础能力层:提供图片生成、AI写作、在线翻译等不同技能的集合,可将本地技能打包成MCP,接收外部第三方MCP的能力

img

流程图说明:

用户提供需求,Agent作为数字员工负责执行:拆解用户提出的需求、用户目标对齐、基于对应的角色搜索和调用相关技能、自主执行完成任务闭环

不同的角色会有不同的Skill,好的提示词能增强AI的理解,激活对应的Skill。

比如在提示词窗口输入:

我要生成一张关于描述春天春游的1080P图片,输出图片格式为JPG

AI进行拆解,调用图片生成的Skill

1.2、相关改变和名词解释

  • AI Skills = 大脑本身(智商、知识、感官)

  • Prompt = 给大脑的任务指令

  • MCP = 手、眼睛、接口,可以操作工具

  • Agent = 完整的人:大脑 + 指令 + 手脚 + 记忆 + 目标

名词解释:

img

1、Prompt

给 AI 下达指令、角色、规则和格式的一句话或一段文本,用来精准引导 AI 输出你想要的结果

2、AI Skills **

AI Skills 是大模型与生俱来的底层基础能力集合,包含自然语言理解、逻辑推理、内容生成、多模态感知、知识问答、代码处理等核心能力,它不依赖外部工具与复杂规划,是 AI 能够响应指令、处理信息、完成基础任务的根本前提,也是 Prompt 能够生效、Agent 能够运行的能力底座。

通用技能:比如写PPT、写会议纪要、图像涉及、音乐创作、文章翻译的能力

专有技能:比如写关于航空航天领域的PPT,读每天的网页和咨询并总结的能力

3、MCP

MCP(Model Context Protocol,模型上下文协议)是 Anthropic 推出的AI 与外部工具 / 数据源交互的标准化协议,像 AI 的 “万能插座”,让大模型能统一、安全地调用各类服务。

有点像手机充电接口,原来有安卓、TypeC、苹果lighting等各种接口,最终统一成TypeC的快充接口,用户出门用一个充电头即可满足多种设备的充电需求

常见的 MCP 有:

  • Anthropic MCP Core:MCP 协议标准制定者,提供基础工具集(文件、搜索、代码),是 Claude Desktop 原生支持的核心服务

  • Azure OpenAI MCP:微软为 Azure OpenAI 定制,支持云端 AI 工作流,可对接数据库、云服务

  • 百度千帆 MCP:集成超 1000 个工具,含百度地图、电商交易、搜索等 MCP,适配文心大模型

  • 阿里云百炼 MCP:国内主流,含高德地图、无影云桌面、数据库等 50 + 预置服务,支持快速构建 Agent

  • 腾讯云 TI MCP:对接微信支付、微信读书、腾讯位置服务,深度绑定微信生态

  • 支付宝支付 MCP:全球首个支付类 MCP,让 AI 一键接入支付能力,打通商业化闭环

  • GitHub MCP:自然语言操作代码仓库(提交、分支、PR),适配 Cursor、VS Code

  • 高德地图 MCP:路线规划、位置查询、逆地理编码,适配中文出行场景

  • Bilibili MCP:搜索、获取视频 / 弹幕 / 评论数据,适合内容创作与分析

  • 微信读书 MCP:接入书籍内容、笔记,支持 AI 读书总结与问答

4、上下文记忆

Agent 的记忆能力是其实现持续、连贯、深度交互的核心,能够保留上下文信息、历史对话、用户偏好与任务进度,让 AI 不再是单次响应的工具,而是具备长期记忆与连贯思考的智能体。

记忆载体有哪些?

记忆载体主要包括短期上下文窗口、向量数据库、关系型数据库、知识库、本地文件与外部存储等多种形式

1、短期记忆依托模型上下文窗口保存对话历史与任务进度

2、长期记忆通过向量库、结构化数据库等持久化存储用户偏好、历史行为、任务结果与知识片段,不同载体协同工作,让 Agent 既能实时理解当前对话,又能跨会话复用历史信息,实现连贯思考、持续学习与自主决策。

比如MD文件、数据库

5、大模型底座

比如通义千问、豆包,接口用户输入的提示词

大模型底座是 AI 大模型的底层基础架构,基于 Transformer 技术、经海量数据预训练而成,具备通用语言理解、逻辑推理与知识生成能力,不直接面向具体业务,而是作为 “能力源头”,通过微调、提示适配等方式,快速支撑对话、写作、代码、行业应用等各类上层模型与产品,是当前 AI 生态的核心基石。

二、Agent能干什么

完整智能体,具备:

img

  • 规划能力(拆任务)

  • 记忆(上下文 / 长期记忆)

  • 工具调用(MCP)

  • 自主执行

三、主流Agent介绍

3.1、通用型Agent

常见的通用型Agent有Claude Cowork、QoderWork、OpenClaw、百度文心智能体平台

最近OpenClaw很火,大有代替秘书的趋势,数字员工的风范

1)Claude Cowork

Anthropic 推出的桌面级 AI 协作智能体,依托 Claude 大模型与长上下文能力,可直接操作本地文件、执行多步骤办公任务,自主完成文档处理、表格制作、代码调试与资料整理,以 “AI 同事” 模式提供安全、闭环的本地自动化工作流。

https://claudecoworkai.cn

2)QoderWork

阿里桌面 Agent,自然语言调度本地工具,实现文件处理、代码生成、应用操作自动化

阿里推出的国产桌面 AI Agent,定位为本地运行的智能工作助手,可通过自然语言自主规划并执行文件整理、数据处理、内容创作、文档生成等复杂办公任务,支持 MCP 协议扩展工具能力,兼顾数据安全与低门槛使用,能以 “桌面同事” 模式帮用户自动化端到端工作流。

3)OpenClaw

开源Agent工具,一上线就火爆全球

原名 Clawdbot/Moltbot,主打在用户本地设备运行,数据隐私完全自主可控,可通过飞书、企业微信、Telegram 等 IM 工具接收自然语言指令,自主完成文件处理、邮件管理、网页操作、代码执行、日程安排等实际任务,具备任务拆解、工具调用、持久记忆与跨应用协同能力,是面向个人与轻量团队的 7×24 小时自动化数字助手。

https://openclaw.ai

4)百度文心智能体平台

百度基于文心大模型打造的一站式 AI 智能体构建与分发平台,支持零代码 / 低代码、自然语言交互与可视化编排,可快速创建具备知识理解、任务规划、多模态交互与工具调用能力的行业智能体,深度整合百度搜索、地图、内容生态等能力,并提供从开发、测试到分发、运营、变现的完整生态闭环,适合个人与企业快速落地智能客服、内容创作、办公自动化、企业知识管理等场景。

文心智能体平台AgentBuilder | 想象即现实

img

5)腾讯元宝

腾讯基于混元大模型打造的一站式智能体创作、运行与分发生态。它以零代码 / 低代码可视化编排为核心,支持通过提示词、专属知识库、工作流与插件快速构建具备任务规划、多模态交互与工具调用能力的智能体。平台深度整合微信、QQ、腾讯文档、会议等生态,可一键发布为小程序、群机器人、客服入口等形态。面向个人与企业,提供从 AI 搜索、文档处理、内容创作到复杂任务自动化的全链路能力,兼顾数据安全与生态开放,是微信生态内落地智能助手、知识问答、办公自动化的主流选择。

https://yuanbao.tencent.com/chat/naQivTmsDa

6) 智谱 AI AutoGLM

面向中文场景的执行型 AI Agent,具备设备 GUI 操作、长程推理与反思能力,可自主操作手机与电脑应用完成点餐、订票、内容创作、办公自动化等复杂任务,同时提供开源框架与模型,适合国内生态二次开发与私有化部署。

Inspiring AGI to Benefit Humanity

7)LangChain/LangGraph

最流行的 Agent 开发框架,支持工作流编排、工具调用、记忆管理

3.2、专用型Agent

适用于代码生成,AI编程

1)Qoder

阿里推出的工程级 Agentic AI 编程平台,面向真实企业级软件开发场景,具备超强项目级代码理解、长上下文感知与自主任务规划能力,可通过自然语言完成代码生成、多文件修改、项目重构、文档生成等全流程开发任务,支持 IDE 插件与独立编辑器双形态,能深度理解代码库结构与开发习惯,像资深工程师一样自主推进开发任务。

https://caug.cn

2)Claude Code

Anthropic 官方推出的终端原生 AI 编程智能体工具,基于 Claude 4 大模型与长上下文能力打造,可直接在命令行环境中自主理解项目结构、规划开发任务、生成与调试代码、跨文件编辑并执行命令,支持主流编程语言与 Git、GitHub 等开发生态,无需频繁切换工具即可完成从需求描述到代码落地、测试修复的全流程开发。

img

3)Cursor

习惯用VS Code,一定听说过Cursor这款工具,原本是VSCode的一款插件,后面自行研发IDE后也非常方便

基于 VS Code 深度改造、AI 原生的代码编辑器,内置 GPT‑4、Claude、自研 Composer 等大模型能力,可全局理解项目结构、支持跨文件编辑与自主代码生成,能通过自然语言完成编写、调试、重构、注释等全流程开发任务,兼容 VS Code 插件与操作习惯,是面向开发者的高效 AI 结对编程助手。

适用于办公场景:

常见的有Microsoft 365 Copilot、WPS AI

Microsoft 365 Copilot:

  • 定位:Office 全栈办公 Agent

  • 核心能力:Word 文档生成 / 润色、Excel 数据分析 / 公式生成、PPT 自动排版、Outlook 邮件整理、Teams 会议总结

3.3、领域Agent

对于某些特定领域,有一些大厂结合自身工具和行业知识,打造了一些具有行业属性的Agent。这些领域Agent因为有更有针对性的数据源,还有行业专家和企业自身的知识库,往往回答和效果远远大于通用性智能体

领域 代表产品 核心优势 适用场景
办公自动化 实在 Agent、钉钉 AI 国内流程适配、跨系统操作 企业流程、报表、财务
代码开发 Devin、Cursor、通义灵码 全流程开发、IDE 集成 软件开发、编码、调试
金融 Harvey、Hebbia 合规、投研、风控 投行、律所、财富管理
法律 Harvey、幂律 AI 合同审查、合规 律所、企业法务
医疗 Hippocratic AI、文心生物 临床、研发、合规 医院、药企、诊所
设计 墨刀 AI、Synthesia 原型、数字人视频 产品、UI、营销视频
科研 Perplexity、ChatDev 文献、研发协同 学术、科研工具开发
电商 淘宝智能客服、Clay 客服、营销、线索 电商、零售、销售
工业 华为盘古、极飞农业 设备、产线、农业 制造、能源、农业
政务 电网 Agent、政务智能体 审批、调度、治理 政府、智慧城市
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐