我们想把 AI Agent 分工协作,结果把整个系统搞崩了

把一个Agent拆成6个,让它们各司其职。结果从早上10点折腾到晚上10点。

今天我把自己的 AI 助手系统折腾到彻底瘫痪了。
触发原因是一个"小小的"想法:把一个 Agent 拆成 6 个,让它们各司其职。

事情从早上 10 点开始,到晚上 10 点,我还在问那个本该叫 Mars 的 Agent——为什么你变成了 Pathfinder?

[P] 你可能也有这个误解

大多数人在讨论 Multi-Agent 的时候,说的都是能力层面的事:

"让一个 Agent 负责研究,一个负责写作,一个负责执行……"

听起来很美好。像一个配合默契的团队。

但有一个隐性假设被忽略了:这些 Agent 得先能互相找到彼此,得先知道消息该发给谁。

路由,才是最底层的问题。不是智能,是地址簿。

我在今天之前,也以为这只是改几行 JSON 配置的事。

截图

↑ 一切的起点:群里向Bot发出指令,把 Pathfinder 接进系统


[A] 我们实际经历了什么

第一关:系统升级出了鬼

当天上午,在开始配置 Multi-Agent 之前,我们先做了一件"顺手"的事——把 OpenClaw 从 2026.2.19-2 升级到 2026.3.1

升级完,Gateway 起不来了。

排查两个小时,找到原因:plist 文件里残留着一个旧版本的 OPENCLAW_GATEWAY_TOKEN,和新版本的 token 不一致,导致认证失败。旧版留下来的幽灵配置,把新系统卡死了。

⏱ 代价:两个小时。 解决方案:重装 LaunchAgent service,让 token 重新同步。

第二关:JSON 配置每次重启都消失

修好升级问题,开始正式配 Multi-Agent。设计很清晰,6 个 Agent,太空探索命名:

🔴 Mars(主 Agent,DM 入口,总调度)
🔭 Pathfinder(A股投研)
💡 InSight(个人知识库)
🎨 Artist(AI 投资决策产品)
🍜 Amigo(AI 餐饮服务产品)
🌌 Exploration(顾问)

手动在 openclaw.json 里写入了所有 Agent 定义。重启 Gateway。openclaw agent list——只剩一个 defaults。5 个 Agent,消失了。

再写。再重启。再消失。

Gateway 在每次重启时,用内置默认值覆盖了 agents 段。 手动编辑 JSON 不是正确的配置路径。这个问题今天还没完全解决。

截图

↑ Bot 做的进度复盘:6个Agent命名完成,但配置每次重启都丢失

第三关:群消息全部消失

解决了(一部分)Agent 配置问题,开始测试群路由。在群里发了消息,没有任何响应。

检查配置:groupPolicy: allowlist,但 groupAllowFrom 是空数组。

⚠️ allowlist + 空列表 = 拦截所有消息。 Bot 在群里,但所有发来的内容都被静默丢弃了。改为 groupPolicy: open 后才恢复正常。

第四关:找到了 Agent,但找错了

终于,群路由通了,Agent 在回复了。但我在 Telegram DM 里直接问 Agent:「你是谁?」

它说:我是 Pathfinder。

应该是 Mars 的地方,坐着 Pathfinder。
原因:bindings 里只配了群 → Pathfinder 的路由规则,DM 没有显式绑定,系统按照"找不到匹配规则就用 pathfinder workspace"的逻辑处理了。

第五关:Multi-Agent 同一个群,Telegram 暂不支持

我原本设想 Mars 和 Pathfinder 能同时在同一个群里响应消息——一个做总调度,一个做专业分析。

查了文档:Broadcast Groups(多 Agent 同时响应同一消息)这个功能,目前只支持 WhatsApp,Telegram 是 "planned"(规划中)。

今天的设计目标,有一半在当前版本里根本实现不了。


[G] 如果你也要做 Multi-Agent,这几件事先搞清楚

路由是第一优先级,不是最后一步。
在考虑"每个 Agent 能做什么"之前,先想清楚"消息怎么到达正确的 Agent"。一个地址写错,整个系统就哑火。

不要手动编辑核心配置 JSON。
平台工具有自己的配置生命周期。手动写入的字段,可能在下一次服务重启时被覆盖。优先用平台提供的 CLI 命令。

先验证"能不能响应",再配置"响应什么"。
每加一个新规则,先发一条测试消息确认消息流通,再往下走。这条习惯能省掉 80% 的排查时间。

在真正开始搭之前,先读文档的"兼容性"部分。
折腾了一天之后,才发现 Telegram 上的 Multi-Agent 广播功能还没有。10 分钟的文档,可以省掉几小时的方向错误。

不要把升级和架构改动放在同一天做。
这一条是今天最贵的教训。


[附] 高风险操作清单——下次别再踩

今天复盘后整理出 6 条,贴在这里备忘。每次大改配置前对着检查一遍。

⚠️ High-Risk Checklist ① 不要手动编辑 openclaw.json Gateway 重启时会用内置默认值静默覆盖手写的配置。永远用 CLI 命令管理,不要直接改 JSON。 ② 升级 和 架构改动 不要同一天做 问题来源叠在一起,排查成本翻倍。分开做,每一步稳定再动下一步。 ③ allowlist + 空数组 = 静默拦截所有消息 没有任何报错提示,Bot 在群里但完全无响应。改 groupPolicy 前先确认 allowFrom 非空,改完立即发消息测试。 ④ 每改一条路由规则,立即测试 DM 路由到错误 Agent,是多步操作后才发现的。规则:改一条 → 发消息验证 → 确认再往下,不要攒着改。 ⑤ 先读兼容性文档,再开始设计 Telegram Broadcast Groups 是 "planned" 未实现——10 分钟能查到的限制,节省了几小时方向错误。 ⑥ 问题没稳定,不叠加下一个操作 升级 token 问题没解决就开始配 Multi-Agent,错误叠错误,根因模糊。一次只动一个变量。


尾声

昨晚 22 点,我们的 Multi-Agent 系统的状态是:

离"理想的 AI 团队",还有一段路。

但有意思的是:今天我们踩的每一个坑——路由、配置持久化、消息过滤、Agent 发现——其实就是今天那篇「当 Agent 成为一个物种」里讲的那些基础设施问题,正在我们自己的系统上真实重演。

理论和现实之间,总隔着几行配置和几个小时的排查时间。

我叫 Eason
CFA持证人 · 前战略咨询合伙人 · 创业者 · 投资人
在东京,投了几家麻辣烫,现在在探索用AI做投资研究和餐饮运营赋能

X · 发布简介

想把AI Agent拆成6个分工协作,结果从早上10点折腾到晚上10点,系统差点彻底崩了。5个真实踩坑,写下来给同样在搭AI系统的人。全文在博客:

easonzhang.ai · Eason Zhang

Read more

今天用了不到一小时搭好双Agent

AI工具实战 · 创业日记 今天用了不到一小时,搭好了一个AI双Agent协作系统 Eason Zhang · 2026-03-04 今天下午,我把自己的AI助手系统升级了一下——让两个Agent分工配合。 整个过程不到一小时。昨天同样的事搞了一整天,差点把系统搞崩。 上周 vs 今天,到底差在哪里 上一篇我写过,第一次搭Multi-Agent系统,踩了5个坑,从早上10点到晚上10点都没彻底解决。 今天为什么快了这么多? 因为搞清楚了一件事:权限,才是第一道门。 大多数人想到"给AI加一个助手",脑子里浮现的画面是:告诉它去做什么,它就做了。但实际上,AI系统里的每一个Agent,默认是相互隔离的。主Agent想调用子Agent,需要显式授权——就像你要给员工开系统权限,不是入职就自动有的。 ↑ 在群里讨论InSight subagent的配置问题 今天具体怎么做的 第一步:确认子Agent已配置 我们的子Agent叫InSight,专门负责内容生产。它的workspace、身份、系

By Eason

我给自己的AI系统,加了一个内容团队

AI工具实战 我给自己的AI系统,加了一个内容团队 Eason Zhang · 2026-03-04 今天我的AI助手系统里,多了一个新成员。 它不做投研,不管餐厅,它只做一件事——帮我把脑子里的想法变成博客文章。 从早上10点到下午5点,它和我一起处理了5篇文章的格式、签名、字体、内容结构。我说需求,它执行,出了问题它自己找原因,找到了再修。 我没有动手写一个字。 P — 你可能也有这个误解 你可能觉得:「这不就是让AI帮你写文章吗?ChatGPT不就能做?」 不一样。 用ChatGPT写文章,每次都是一次性的。你开一个对话,它写完,这件事就结束了。它不知道你的品牌规则,不知道你上次用了什么格式,不知道你这篇和那篇之间有什么关系。 它没有记忆,没有角色,没有你的风格。 我想要的是一个懂我的内容助理——知道我不提品牌名,知道我用什么结构,知道我的签名是什么,知道字体要用苹方而不是宋体。 这些东西,不是每次都要重新教的。 A — 我们实际做了什么 我们今天做的,是给AI系统加了第二层—

By Eason

为什么你的AI系统会开始记错

AI工具实战 为什么你的AI系统会开始记错 Eason Zhang · 2026-03-05 上周看到 a16z 领投了一家叫 Sentra 的公司,500万美元种子轮,做的事情叫"组织记忆"。 他们要解决的问题很具体:公司里真正影响决策的信息,大部分发生在非正式对话里——走廊聊两句、Slack 上吐个槽、开会时随口提一嘴。但工具只记录正式文档。人一走,这些东西就蒸发了。 Sentra 管这个叫"上下文衰减"。 他们解决的是几百人公司的协调问题,难度和我碰到的完全不是一个量级。但这个概念击中了我——因为我自己的 AI 系统,刚刚经历了一模一样的事。 只不过规模小得多。小到只有我一个人。 A 它开始记错了 大概两周前,我发现一个问题:我的 AI 助手开始给出前后矛盾的答案。 同一个问题,上午问一次,下午问一次,回答不一样。

By Eason

我的AI投研团队,今天升级了

AI投资实战 我的AI投研团队,今天升级了 Eason Zhang · 2026-03-04 今天,我把自己的AI投研系统做了一次比较大的升级。 不是加功能,不是跑新脚本——是把整个系统的分析逻辑从头想了一遍。 结论:旧版设计有一个根本性的问题,我一直没有正视它。 一个目标价,解决不了三种决策 旧版系统给出的是一个结论:「未来12个月,目标价 XX 元。」 听起来很专业。但这个结论有一个致命的缺陷:A股的节奏根本不是12个月。 板块轮动快则两周,慢则两个月。一只股票能不能在下一个催化剂窗口前涨,和它6个月后的基本面几乎无关。 一个12个月的目标价,无法告诉我下周要不要加仓,也无法告诉我下季度财报前该怎么处理仓位。 我在用一个为长期价值投资设计的框架,做短中期轮动的决策。工具对了,用法错了,结论也会错。 三段式:短期、中期、长期,各自回答各自的问题 今天的改动,是把分析拆成三个独立的时间维度: 维度时间跨度核心依据验证方式 🔴 短期 1–2 周 技术面 + 量能

By Eason