OpenClaw浅析

定位

OpenClaw Claude Code AutoGen
核心定位 个人AI操作系统 AI编程助手 多智能体开发库
工具设计 4个核心原语 20+内置工具 自行集成
架构模式 Gateway + Agent分离 单体应用 对话式协作
部署方式 本地/云端托管 SaaS 开发者集成

OpenClaw在多智能体领域有一个独特的定位,它不是一个开发者工具库,而是一个即用型智能体产品。这是它与AutoGen、CrewAI、LangGraph等框架的根本定位差异。

对比AutoGen

  • 与微软的AutoGen相比,核心分歧在于"对话式协作" 与 ”任务式委派“。AutoGen围绕ConversableAgent构建,支持灵活的双智能体对话,群聊,层级结构 — 智能体通过结构化对话轮次协商解决问题。

  • OpenClaw多智能体更像一个带分工的工作队列:主智能体通过Session_spawn分发任务,子智能体完成后通告结果。

AutoGen在复杂推理和协商场景中更强大,但需Python编码,OpenClaw零代码即可运行,且内置15+消息平台集成。

对比LangGraph

  • LangGraph代表另一个极端,将智能体建模为有向图中的节点,支持循环图、分支决策、人类审批检查点和持久化状态,本质上是一个智能体状态机引擎。对于需精细控制推理流程的企业级应用,LangGraph几乎是无可替代的,但也意味着陡峭的学习曲线和大量工程投入。

  • OpenClaw目标用户无需理解”状态机思维“,通过自然语言和Markdown配置即可实现实用的自动化。

设计剖析

  • 本地优先的AI执行框架,强调 让AI真正做事的实用主义导向。
  • AI时代,超级个体可驱动现象级开源项目(单枪匹马单日通过AI编程数百次代码提交,快速迭代)。
  • OpenClaw爆发,本质是 本地执行+自然交互 的技术路线,契合了用户对AI真正做事的核心需求。

OpenClaw其实是你 AI Agent中不是AI的那部分(龙虾的聪明程度取决于背后接的模型)。

flowchart RL
    subgraph 人
    p["`WhatsApp
    Telegram
    WebUI
    飞书
    QQ
    企业微信`"
    ]
    end
    subgraph OpenClaw
    O["`记忆系统
    任务管理系统
    使用你的电脑`"
    ]
    end
    subgraph 大模型
    L["`Claude
    Gemini
    GPT
    MiniMax
    DeepSeek`"
    ]
    end
    人-->OpenClaw
    OpenClaw-->人
    OpenClaw-->大模型
    大模型-->OpenClaw

作为一个壳,效果依赖你给它接的大模型,也依赖它自身

  • 工具调用,是模型和框架间配合演出的双簧
  • 其强,强在可以用exec这个工具执行任何shell command
  • 另外,与模型合作会自创工具,生成程序解决眼前的问题

龙虾干了哪些活?

模型本身有严重的失忆症,每次处理请求都从零开始。OpenClaw在背后做了大量递纸条的工作

  • 每次把你的消息发给模型之前,OpenClaw先在后台默默完成一项大工程,把所有需要模型【知道】的信息拼接城一个巨大的prompt,一股脑塞给模型
  • prompt里有什么?
    • AGENT.mdSOUL.mdUSER.md,里面写着小龙虾是谁,性格是什么,主人是谁,主人有什么偏好和习惯
    • 然后是你和它之前的所有对话记录
    • 再加上之前调用过的工具的返回结果,当前的日期时间等环境信息

最棒的部分:技能扩展系统

  • 不断学习/注入 新本领,甚至能自己写技能的 插件架构(Skill可以由LLM自行创造)
  • Skill就是给AI助手的操作手册,让它在通识之余 了解并具备专项操作能力(Skill就是工作的SOP)
1
2
3
4
5
6
7
8
9
10
11
skill-root/
├── SKILL.md # 技能描述文件(必需)
├── scripts/ # 可执行脚本目录
│ ├── helper.py
│ └── utils.sh
├── references/ # 参考文档目录
│ ├── api_docs.md
│ └── guidelines.txt
└── assets/ # 静态资源目录
├── logo.png
└── styles.css

完全兼容AgentSkills开放标准的广阔生态。一次编写,到处运行(无缝迁移至数十个主流AI终端平台)。

---
config:
  flowchart:
    defaultRenderer: "elk"
---
flowchart LR
    发现-->依赖资格检查-->渐进加载-->执行-->文件监听-..->发现
    执行-.250ms debounce热重载。修改Markdown后无需重启,下轮对话直接生效.->文件监听

多智能体协作机制

OpenClaw提供三种多Agent协作机制:SubAgent、AgentTeams、AgentToAgent(跨代理通讯)。各自应对不同复杂度和规模的任务需求

可为不同角色配不同的模型,例如路由选择用轻量模型,推理用高阶模型,降低Token成本

协作模式

SubAgent: 主从委派

主Agent是项目经理,子Agent是干具体活的调研员,通过Spawn指令产生,子Agent完成后将结果回传,适合流水线式工作(子Agent拥有独立的上下文窗口

AgentTeams

支持多代理以对等或阶层方式协作,可共享上下文和记忆,适合需要即时协调与动态分工的复杂任务

AgentToAgent

实现跨OpenClaw实例的代理间通信

何时启用多Agent?

  • 任务可分解为独立子任务,加速效果明显(单一Agent只能依序完成子任务)
  • 需不同专业领域:任务需不同技能组合时,专职Agent输出品质优于通用Agent
  • 成本敏感:不是每个子任务都需要最贵的模型
  • 可靠性要求高:多Agent架构支持子Agent的重试和fallback配置,提高可用性保障

subAgent与AgentTeams可同时使用么?

  • 可以
  • 配置文件的不同组织,决定工作模式,也支持嵌套
  • subAgent配置最实用,另两种对多数用户都有场景复杂化的伪命题感
  • AgentTeams适合开发场景,如技术主管(can_delegate:true)、前端开发、后端开发、QA(它们can_delegate:false),辅以workflow设定配置,定义stages,其它设置项定义协调策略与协调者

烧Token的问题

  • 一句简单的你好,OpenClaw可能帮你组装了5000Token的Prompt

  • 心跳机制会使它定期访问模型

  • 每次交互相当于让模型『重新读一遍小说』

参考


  1. 1.国立台湾大学语言处理实验室 以 OpenClaw 為例介紹 AI Agent 的運作原理