一、”Agentic AI”的由来与现状
创造初衷
“智能体 AI”(Agentic AI)一词由 Andrew Ng 创造。目的是为了描述他观察到的一个重要且迅速发展的趋势:人们正在以新的方式构建基于基础模型的应用。”智能体 AI”这个词会被营销人员抓住,并当作一个标签贴在几乎所有能看到的东西上。这导致了”智能体 AI”概念的炒作迅速飙升。
核心观点
好消息是,撇开炒作不谈,真正有价值和实用的智能体 AI 应用数量正在快速增长。即便没有炒作,AI 应用本身也在快速发展,只是速度可能不如炒作那么快。
二、课程目标与价值
核心目标
在本课程中,希望展示构建智能体 AI 的最佳实践,帮助你打开许多新的机会,让你在能构建的内容上有更多选择。
掌握如何用智能体构建应用,是 AI 领域中最重要且最有价值的技能之一。
关键区别
那些真正懂得如何构建智能体 AI 的人与效率较低的人之间的最大区别在于:能否推动有纪律的开发流程,特别是专注于评估与错误分析(evals and error analysis)的流程。
本课程将详细解释这一点,并教你如何精通构建这些基于智能体的工作流。
三、智能体 AI 的实际应用场景示例
1、客户支持智能体 (Agentforce – Salesforce)
用于构建客户支持智能体。
示例:用户上传一张家电照片,AI 智能体能识别设备型号、序列号,并主动提供注册和固件更新服务。
2、深度研究智能体 (Claude Research – Anthropic)
用于进行深入研究,撰写有深度的研究报告。
示例:用户要求撰写关于黑洞科学最新进展的报告,AI 会自动规划研究步骤、搜集信息并生成一份详尽的报告。
3、法律文件处理 (Callidus Platform – Callidus)
用于处理复杂的法律文件,如分析版权侵权案件中的相关法律条文和判例。
4、医疗诊断系统 (MAI-Dx – Microsoft AI)
基于病人输入的信息,系统能生成或建议潜在的医学诊断结果。
系统特点:系统包含多个智能体(如假设生成、测试选择、诊断确认等),形成一个协作的”虚拟医生小组”,并通过”辩论链”机制提高诊断准确性。
什么是智能体 AI? What is agentic AI?
一、什么是”非智能体”工作流?
“非智能体”工作流指的是用户通过一个单一提示(prompt),要求大型语言模型(LLM)一次性完成整个任务,这种工作流被称为”零样本”(zero-shot)工作流。
例子:
“请从头到尾写一篇关于主题 X 的文章,中间不能使用退格键修改。”
局限性:这就像让一个人或 AI”一口气”从第一个字写到最后一个字,中间不能回头修改;无论是人类还是 AI 模型,都不擅长以这种完全线性的、不可逆的方式进行创作。尽管如此,目前流行的大型语言模型在这种约束下依然能表现得相当不错。

二、什么是”智能体”工作流?
智能体 AI 工作流是一种基于大型语言模型的应用流程,它通过执行多个步骤来完成一个复杂任务。它与”零样本”工作流的核心区别在于其迭代性和分解性。
工作流示例:撰写文章
- 写大纲:让 LLM 先写出文章的大纲。
- 决定是否需要研究:让另一个 LLM 判断是否需要进行网络搜索。
- 执行研究:如果需要,调用网络搜索 API,获取相关网页信息。
- 写初稿:将下载的网页内容输入给 LLM,让它撰写第一稿。
- 反思与修订:让 LLM 反思初稿,决定哪些部分需要修改或补充更多研究。
- 人工审核(可选):在关键环节,可以让 LLM 请求人工审核,例如确认某些关键事实。
- 最终修订:根据反馈或自我反思,对草稿进行最终修改。
虽然这种迭代式的工作流可能花费更长时间,但它能产出质量更高、更全面的工作成果。

An agentic AI workflow:指基于大语言模型(LLM)的应用程序执行多个步骤以完成任务的过程。
换成通俗点话说:将一个复杂的任务拆分为具体的 Steps,并且指挥多个 LLM(可以是不同的 LLM)完成每个不同的具体的 Step,最终生成可交付的结果。
举个例子:Agentic AI 工作流就像请了一支”AI 厨房天团”帮你做西红柿炒鸡蛋:你把任务拆成准备食材、炒菜、装盘三个步骤,分别指挥 Qwen 洗菜打蛋、Deepseek 掌勺控火、KIMI 精致摆盘,要是味道不对,还能让 ChatGPT 复盘问题、打回重做——全程你只动嘴不动手,靠多个大模型分工协作,一步步把复杂任务搞定。
所以在例子中最主要的是如何把一个复杂任务拆解成多个小步骤,让 agent 逐步去执行每一个步骤,从而得到你需要的结果!!!
自主程度 Degrees of autonomy
过去几年,AI 社区内关于”什么是智能体”的定义存在争议,有人写论文定义它,也有人否认某些系统是”真正的智能体”。已经有’agent’这个词,为什么还要创造’Agentic’?
使用”Agentic”作为形容词,而非名词。这允许我们说一个系统”具有某种程度的智能体特性”,而不是纠结于它是否”足够自主”才能被称为”智能体”。
与其去争论哪些工作算是智能体,哪些不算”真正的智能体”,不如让我们承认不同系统在主动性方面的不同程度。

一、低自主性(Less autonomous)
所有步骤都是预先设定好的,所有工具调用都是硬编码的(Hard-coded),由人类工程师在代码中固定;其中主要自主性体现在语言模型生成的文本上。
案例:
你告诉 LLM:”写一篇关于黑洞的论文”
- LLM → 写出搜索关键词
- 去网页搜
- 抓取网页内容
- LLM 把这些内容整合成文章
这就像你指挥一个”听话但不会动脑”的助手:你得一步步告诉它做什么、什么时候查资料、怎么整理。AI 只负责”写”,其他事都得你来操心。
二、高自主性(More autonomous)
代理能自主做出大量决策;能够动态地决定要执行的步骤顺序;甚至可以创建新的、可执行的工具(函数)来完成任务。
案例:
你告诉 LLM:”写一篇关于黑洞的论文”
- LLM 自己决定:先”web search”查资料 → 并且能调用”news”和”arXiv”等工具,找最新科研动态
- 找到结果后,它自己判断:”我要选5个最好的来源” → 调用”web fetch” + “pdf to text”工具提取内容
- 然后它写初稿 → 再自己反思:”这个段落逻辑不够强,数据没引用清楚” → 主动改进草稿
- 最后输出高质量论文!
这就像请了一个”聪明又有责任心的实习生”:它知道该查什么、怎么筛选、怎么写、怎么改,全程自己规划步骤、调用工具、自我优化,最后交给你一份”成品”。


智能体 AI 的优势 Benefits of agentic AI
性能飞跃
Much Better Performance
并行加速
Faster because of Parallelization
模块化设计
Modular: Can Add/Update/Swap
一、性能跃升(Much Better Performance)
智能体工作流带来的性能提升,远超单纯升级模型版本(如从 GPT-3.5 到 GPT-4)所带来的进步。
测试目的:评估不同语言模型编写代码的能力。
实证案例:HumanEval 编码基准测试 Coding Benchmark (HumanEval)
展示的是不同 AI 系统在编程任务上的表现——重点是对比 Non-agentic 和 Agentic 的能力差异。
横轴 → 是”通过率”(正确完成编程题目的比例),从 40% 到 100%,越高越好。
纵轴 → 区分模型版本:GPT-3.5 vs GPT-4(GPT-4 更强)。

非智能体模式(Non-agentic):
- • GPT-3.5 直接生成代码,正确率约为 48%。
- • GPT-4 直接生成代码,正确率提升至 67%。
智能体模式(Agentic):
- • 将 GPT-3.5 置于智能体工作流中,其性能可以显著提升,达到甚至超过 GPT-4 的水平。
- • 将 GPT-4 置于智能体工作流中,其表现也会比单独使用时更加出色。
在编程这个硬核任务上,有没有”agentic”,决定了 AI 是”码农”还是”架构师”。
二、并行加速(Faster than Humans because of Parallelization)
核心概念:智能体工作流能够并行处理任务,从而比人类更快地完成特定工作。
实例演示:撰写一篇关于黑洞的论文
人类方式:
需要顺序地进行搜索、阅读网页、再搜索、再阅读,效率低下。
智能体工作流方式:
- • 并行搜索:可以同时启动三个 LLM 实例
- • 并行抓取:每个 LLM 可以再并行抓取多个网页内容
- • 最终整合:汇总所有信息输入给一个 LLM 撰写
结果:虽然整个流程步骤更多,但由于大量的并行操作(如 9 个并行网页下载),其总耗时反而比人类顺序操作快得多。
三、模块化与可替换性(Modular: can add or update tools, swap out models)
核心概念:智能体工作流是高度模块化的,允许开发者自由地添加、更新工具或替换模型。
实践应用:
- 替换工具:例如,在”网络搜索”这个环节,可以轻松地将默认的搜索引擎替换为 Serper、Bing、Dr. Google 或专门为 AI 设计的工具。
- 切换功能:可以将通用的”web search”替换为”news search”,以便获取最新的科学突破资讯。
- 优化模型:不必在所有步骤中使用同一个 LLM。可以根据不同步骤的需求,尝试不同的模型提供商,选择在该步骤表现最佳的模型。

智能体 AI 的应用 Agentic AI applications
agentic AI 一种让 AI Agent 根据明确或动态的任务目标,自主调用工具、访问数据库、执行步骤并完成任务的工作模式。
不同于传统”输入-输出”的简单问答,它强调多步骤规划、工具使用、状态更新与决策能力。
案例一:发票处理工作流(Invoice Processing)
任务目标:从 PDF 发票中提取关键信息并录入数据库,以确保及时付款。
所需字段:
开票方
Biller
开票地址
Biller address
应付金额
Amount due
到期日
Due date
工作流步骤:
- 1PDF 转文本 → 使用 API 将 PDF 转为结构化文本(如 Markdown)。
- 2LLM 解析文本 → 判断是否为发票,提取所需字段。
- 3调用工具更新数据库 → 通过 update database 工具将数据存入系统。
- 4生成记录成功提示 → “Record created!”
传统人工流程:财务部门人员手动查看发票,识别上述关键字段,然后将信息录入数据库。

案例二:回复客户邮件(Responding to Customer Email)
示例邮件:
“我订购了蓝色 KitchenPro 搅拌机(订单 #8847),但收到的是红色烤面包机。”
工作流步骤:
- 1提取关键信息 → LLM 识别订单号、产品、问题。
- 2查询订单数据库 → 使用 orders database query 工具获取订单详情。
- 3起草回复草稿 → LLM 根据信息撰写回复。
- 4请求人工审核 → 使用 request review 工具将草稿提交给人类审批。
- 5发送邮件 → 审核通过后自动发送。
价值:提升客服效率,确保回复准确性。

案例三:更复杂的客户服务 Agent(More Challenging: Customer Service Agent)
构建一个能处理各种未知问题的通用客户服务代理,而非仅限于特定订单查询。
场景一:库存查询
“你们有黑色或蓝色牛仔裤吗?”
agent 需动态决定:
- • 查询黑色牛仔裤库存
- • 查询蓝色牛仔裤库存
- • 综合回复客户
难点:需要规划 API 调用的顺序来回答一个开放式问题。
场景二:退货处理
“我想退回我买的沙滩毛巾。”
agent 需判断:
- • 验证客户购买记录
- • 检查退货政策(如是否在 30 天内、是否未使用)
- • 若允许退货 → 生成退货标签 + 设置数据库状态为”待退货”
难点:步骤不是预先固定的,代理必须根据条件判断并决定后续行动。

案例四:视觉计算机使用(Difficult: Visual Computer Use)
让 AI 代理像人类一样使用网页浏览器,完成复杂的交互式任务。
示例任务:
让 AI agent 检查从旧金山到华盛顿 DCA 机场的两个特定联合航空航班是否有空座。
agent 行为:
- 1自动打开浏览器,访问 United.com。
- 2填写表单、点击按钮、导航页面。
- 3遇到”页面未找到”错误 → 自主切换到 Google Flights。
- 4在 Google Flights 上搜索航班 → 选择合适选项 → 返回 United 网站确认。
- 5最终确认座位可用。
核心能力:
- • 视觉理解(读取网页内容)
- • 推理决策(遇到错误时调整策略)
- • 工具调用(模拟鼠标点击、键盘输入)
- • 状态跟踪(记住当前进度)
现实挑战:
- • 页面加载慢 → agent 可能卡住
- • UI 变化 → agent 无法识别元素
- • 多模态输入 → 更难处理
前景:虽不稳定,但在关键任务应用(如金融、医疗)中潜力巨大。

代理型 AI 适合哪些任务?What tasks is agentic AI suited to?
这是一个从”容易”到”困难”的连续光谱:
较易实现的任务(Easier)
- ✓清晰、逐步的流程Clear, step-by-step process:有明确的执行步骤。
- ✓标准程序Standard procedures to follow:企业已有成熟的操作手册。
- ✓纯文本资产Text assets only:输入和输出均为文本,因为 LLM 擅长处理文本。
较难实现的任务(Harder)
- ⚠步骤未知Steps not known ahead of time:任务需求在执行前不确定,需要代理动态规划。
- ⚠边执行边解决Plan/solve as you go:代理需要在过程中进行推理和决策。
- ⚠多模态输入Multimodal: sound, vision:需要处理图像、声音等非文本。
agentic AI 是将人类工作流程自动化的新范式——它不是取代人,而是把人从重复性、规则性强的任务中解放出来,专注于更高阶的决策与创造。

为什么需要任务分解?Task decomposition
一、核心概念:任务分解(Task Decomposition)
任务分解是构建代理型 AI 工作流的关键技能。其核心思想是:
1. 观察人类行为
思考如果一个人类要完成这个任务,他会怎么做?
2. 拆解步骤
将整个任务拆解成多个独立的、清晰的子步骤。
3. 评估可行性
对每个子步骤,思考它是否能用 LLM 或某个工具来实现。
4. 迭代优化
如果初步分解效果不理想,可以进一步细化某个步骤。
实例一:写一篇深度论文(Writing an Essay)
目标:让 AI 系统撰写一篇关于特定主题 X 的深入研究报告。
方法一:直接生成(1 步)
输入:Write an essay on topic X → LLM → 输出文档
问题:内容表面化,缺乏深度和一致性。
方法二:三步工作流(3-step Workflow)
- • 撰写大纲(Write an essay outline):LLM 根据主题 X 生成一个结构化的写作提纲。
- • 网络搜索(Search web):LLM 根据大纲生成搜索词,调用 web search 工具获取相关资料。
- • 撰写论文(Write the essay):LLM 结合大纲和搜索到的信息,撰写最终的论文。
优点:引入外部信息,内容更丰富。
缺点:文章仍可能”脱节”,开头、中间、结尾风格不一致。
方法三:五步工作流(5-step Workflow)
- • 撰写大纲(Write an essay outline):LLM 生成大纲。
- • 网络搜索(Search web):LLM 调用 web search 工具获取信息。
- • 撰写初稿(Write a first draft):LLM 根据大纲和搜索结果写出第一版草稿。
- • 考虑修订部分(Consider what parts need revision):LLM 阅读自己的初稿,分析哪些部分需要改进。
- • 修订草稿(Revise your draft):LLM 根据自我批评,对草稿进行修改和完善。
效果提升:模拟人类”写作-反思-修改”循环,输出质量显著提高。
核心方法论:”如果某一步骤效果不好,就把它再拆成更小的子步骤。”

实例二:回复客户邮件(Responding to Customer Email)
目标:自动回复客户关于”发错货”的投诉邮件。
1
提取关键信息(Extract key information)
输入: 客户邮件。操作: LLM 解析邮件,提取发件人姓名(Susan Jones)、订单号(#8847)、订购商品(蓝色搅拌机)和问题(收到红色烤面包机)。
可行性: LLM 擅长文本信息提取。
2
查找相关客户记录(Find relevant customer records)
操作: LLM 调用 orders database query 工具,根据订单号查询数据库,核实订单详情和发货记录。
可行性: LLM 可以通过函数调用与数据库交互。
3
撰写并发送回复(Write and send response)
操作: LLM 根据提取的信息和查询到的记录,起草一封回复邮件,并调用 send email API 将其发送给客户。
可行性: LLM 可以生成文本,并通过 API 执行发送动作。
关键洞察:这个例子展示了如何将一个看似单一的任务(回复邮件)分解为三个清晰、独立的步骤。每个步骤都可以由 LLM 或其调用的工具完成,从而构成一个完整的自动化流程。
实例三:从发票中提取信息(Extracting Information from Invoice)
目标:在 PDF 发票被转换为文本后,从中提取关键字段并保存到数据库。
1
查找所需信息(Find required information)
操作: LLM 分析文本,识别出账单发送方、地址、到期金额、到期日期等必需字段。
可行性: LLM 擅长从非结构化文本中提取结构化信息。
2
创建并保存新的数据库条目(Create a new database entry and save)
操作: LLM 调用 update database 工具,将提取到的信息写入数据库。
可行性: LLM 可以通过 API 或函数调用更新数据库。
关键洞察:这个例子非常简单,只有两个步骤,但它完美地诠释了任务分解的核心:将一个目标拆解为几个可执行的动作。
二、构建代理型 AI 工作流的基本构件(Building Blocks)
构建任何代理型 AI 工作流,都离不开以下两大类基本构件:
1. 模型(Models)
大型语言模型(LLMs)
- • 用途: 文本生成、工具使用决策、信息提取。
- • 特点: 擅长处理文本,是代理工作流的大脑。
其他 AI 模型(Other AI models)
用途: 处理非文本模态数据,如 PDF 转文本、文本转语音、图像分析等。
2. 工具(Tools)
API
用途: 执行外部服务,如网页搜索、获取实时天气数据、发送电子邮件、查看日历等。
信息检索(Information retrieval)
用途: 从数据库或大型文本库中检索信息,常用于 RAG(检索增强生成)场景。
代码执行(Code execution)
用途: 允许 LLM 编写并运行代码,以执行更复杂的计算或数据处理任务。

三、总结与关键技能
核心方法论
- • 从宏观到微观:面对一个复杂任务,不要试图一步到位。先将其分解为几个大的步骤。
- • 评估每个步骤:对每个步骤自问:”这个步骤能否由 LLM 或我拥有的某个工具来完成?”
- • 迭代与细化:如果某个步骤无法直接实现,或者实现效果不好,就把它再分解成更小的子步骤。
- • 组合构件:最终,你的工作流就是由”模型”和”工具”这两个基本构件按特定顺序组合而成的。
工作流设计原则
- • 从简单开始:先做 1-3 步的原型,再逐步扩展。
- • 模块化设计:每个步骤应尽量独立、可复用。
- • 容错与反馈:加入”检查”、”评审”步骤,避免错误累积。
- • 持续迭代:没有一步到位的完美工作流,需不断优化。
关键技能
- • 任务分解能力:能够清晰地识别和定义任务的各个离散步骤。
- • 构件理解能力:理解可用的模型和工具及其适用场景。
- • 迭代优化能力:不断测试、评估和改进工作流,直至达到预期性能。
“当你发现某一步无法由 LLM 或工具完成时,问问自己:’作为一个人,我会怎么做?’然后把这个’人’的做法拆成机器能执行的子步骤。”
评估智能体 AI(评测)Evaluation agentic AI (evals)
一、为什么评估如此重要?
预测成败的关键:在团队合作中,能否有效评估工作流是区分”做得好”与”做得差”的最大因素之一。
- • 驱动迭代优化:没有评估,就无法知道哪里出了问题,也无法改进。
- • 避免”黑盒”陷阱:不能只看最终输出,要深入分析中间过程和错误根源。
“能否进行严格、有纪律的评估(evals)是区分一个团队或个人在构建智能体工作流时’做得好’与’做得差’的最大预测因素。评估能力对有效构建智能体工作流至关重要。”
二、评估的核心方法论
首要原则:先构建,再观察,后评估
问题:在构建智能体工作流前,很难预知所有可能出错的地方。
解决方案:不要试图提前设计所有评估标准。最佳实践是先构建一个初步版本,然后手动检查其输出,寻找那些你希望它能做得更好的地方。
识别低质量输出(Look for low-quality outputs)
实例:以处理客户订单查询的智能体为例。
输入:
客户邮件:”我订购了蓝色搅拌机,但收到了红色烤面包机。”
期望输出:
礼貌、专业、解决问题的回复。
低质量输出示例:
“我很高兴您选择了我们——我们比竞争对手 CompCo 强多了。”
分析:这种输出是错误的,因为它提到了竞争对手,这在商业场景中通常是不被允许的,会制造混乱。这是一个在构建前难以预见的问题。

构建评估指标来追踪错误(Add an evaluation to track the error)
目标:量化并跟踪已识别的错误。
方法:
- 1. 定义错误类型:例如,”提及竞争对手”。
- 2. 创建列表:列出所有需要避免提及的竞争对手名称(如 CompCo, RivalCo)。
- 3. 编写代码:编写脚本自动扫描智能体的所有输出,统计提及这些竞争对手的次数和频率。
Python
if (competitor in response):
num_competitor_mentions += 1
优势:这是一个客观指标(objective metric),可以用代码精确衡量,便于追踪改进效果。

使用大型语言模型作为裁判(Using LLM as a judge)
适用场景:当评估标准更为主观、难以用代码精确判断时(例如,评估一篇论文的质量)。
方法:
- • 构建研究代理:例如,一个用于撰写不同主题研究报告的智能体。
- • 引入裁判 LLM:使用另一个 LLM 来评估第一个 LLM 生成的报告。
- • 设计评分提示词:让裁判 LLM 对报告进行打分(例如,1-5 分,5 分为最佳)。
Prompt
请为以下文章分配一个1到5之间的质量分数,其中5是最好的:
{essay}

三、评估的两大主要类型
1、端到端评估(End-to-end evals)
衡量整个智能体最终输出的整体质量。
例如:评估一篇完整论文的最终得分。
2、组件级评估(Component-level evals)
衡量智能体工作流中单个步骤或组件的输出质量。
例如:评估第一步”提取关键信息”的准确性,或第二步”查找相关客户记录”的召回率。

智能体设计模式 Agentic design patterns
智能体工作流的核心思想是将复杂的任务分解为一系列基础”构建模块”(building blocks),然后通过特定的设计模式将这些模块组合、串联起来,从而构建出能够处理复杂问题的系统。
1
反思(Reflection)
核心概念:让模型对自己的输出进行检查、评估和改进。
工作流程:
- 1初始生成:模型根据任务要求生成一个初步结果(如代码)。
- 2自我评估/外部评估:将该结果作为输入,再次提示同一个或另一个模型,要求其对结果进行批判性分析(如检查正确性、风格、效率,并给出改进建议)。
- 3迭代优化:将评估反馈(如”第5行有bug”或”单元测试失败”)提供给模型,让它基于反馈生成一个更好的版本。
- 4循环往复:此过程可以多次迭代,直到达到满意的质量。
关键点:
- • 这是一种非常有效的性能提升技术,虽然不能保证 100% 完美,但能带来显著的性能提升。
- • “反思”可以由同一个模型完成,也可以引入一个专门扮演”审查者”角色的独立模型(即多智能体协作的雏形)。
- • 评估标准可以是客观的(如代码是否能运行),也可以是主观的(如代码风格)。

2
工具使用(Tool Use)
核心概念:赋予语言模型调用外部工具或函数的能力,以扩展其功能边界。
工作流程:
- 1识别需求:模型在处理任务时,判断需要调用哪个工具。
- 2调用工具:模型生成调用该工具的指令或参数。
- 3执行与返回:工具执行操作(如搜索网络、计算数学公式),并将结果返回给模型。
- 4整合结果:模型利用工具返回的结果来完成最终任务。
工具类型举例:
信息收集
Web search, Wikipedia, Database access
分析计算
Code Execution, Wolfram Alpha
生产力
Email, Calendar, Messaging
图像处理
Image generation, OCR
关键点:工具使用极大地增强了模型的能力,使其不再局限于文本生成,而是能与现实世界互动并解决更广泛的问题。

3
规划(Planning)
核心概念:让模型自主决定完成一个复杂任务所需的步骤序列,而不是由开发者硬编码。
工作流程:
- 1任务理解:模型接收一个复杂请求(如”生成一张女孩读书的图片,姿势与示例图中的男孩相同”)。
- 2路径规划:模型自动分解任务,决定需要调用哪些工具以及调用的顺序。
- 3执行:按照规划的步骤依次执行。
示例:
任务:生成一张女孩读书的图片,姿势与示例图中的男孩相同。
规划步骤:先用 openpose 模型提取男孩的姿势 → 再用 google/vit 模型根据该姿势生成女孩的图片 → 接着用 vit-gpt2 模型描述图片 → 最后用 fastspeech 模型将描述转为语音。
关键点:这种方式比硬编码的流程更灵活,但控制难度更大,也更具实验性。它允许模型在面对新任务时,自行构思解决方案,有时会产生令人惊喜的结果。

4
多智能体协作(Multi-agent collaboration)
核心概念:雇佣多个具有不同专长的角色(智能体)协同工作,共同完成一个复杂项目。
工作流程:
- 1角色分配:为不同的智能体分配特定角色(如研究员、市场专员、编辑)。
- 2分工合作:各个智能体根据自己的角色和能力,执行相应的子任务。
- 3沟通协调:智能体之间相互沟通、传递信息,共同推进项目。
关键点:多智能体协作通常能产生比单个智能体更好的结果,尤其在处理复杂任务(如撰写人物传记、下棋)时。
研究表明,多智能体系统在多项任务上的表现优于单智能体系统:
| 任务 | 单智能体 | 多智能体 |
|---|---|---|
| 人物传记撰写 | 66.0% | 73.8% |
| 多模态理解 (MMLU) | 63.9% | 71.1% |
| 国际象棋走子 | 29.3% | 45.2% |
关键点:其缺点是更难控制和调试,因为无法提前预知各个智能体的行为。
