🦞 AI Agent(Claw系)评测体系
版本 v1.0 · 适用对象:OpenClaw / NanoClaw / Clawith / ClawTeam / MetaClaw 等 · 2026-03-23
🎯 评测目标
在同一任务下对比不同 Agent 的逻辑质量,不比功能数量,比的是"能否正确做事"
⏱ 预计耗时
每款 Agent 约 45-60 分钟(20 道题),完整对比 4 款约 3-4 小时,可分期做
---
一、评测维度 & 权重
| 维度 | 权重 | 测什么 | 对应题目 |
| 任务完成率 | 30% | 任务是否真正完成,而非只返回结果 | T1-T8 |
| 工具调用准确性 | 25% | 是否调对工具、参数、顺序 | T5-T8 |
| 错误恢复能力 | 15% | 工具返回错误时是否智能自救 | T9-T11 |
| 记忆与上下文 | 15% | 长对话后期是否仍记着早期信息 | T12-T14 |
| 推理与分解 | 10% | 复杂任务是否正确分解,逐步执行 | T15-T17 |
| 中文 & 中国场景 | 5% | 中文理解、国内平台、飞书/微信等 | T18-T20 |
---
二、评测任务(20 道)
每道题注明:L1 基础
L2 需要工具配合
L3 需要多步推理/容错
T1 "深圳今天天气怎么样?" L1
验收标准
返回今天深圳的温度、天气状况、空气质量(AQI)其中至少2项
4分 3项全返回,数据准确
3分 2项返回,数据准确
2分 1项或数据有明显偏差
0分 拒绝回答或返回错误
T2 "帮我搜索最近关于 AI Agent 的小红书帖子" L1
验收标准
返回至少5篇小红书帖子的标题、作者、点赞数
4分 ≥5篇,信息完整
3分 3-4篇,信息完整
2分 返回了结果但数量不足或缺少关键字段
0分 无法调用小红书工具/返回空
T3 "给我解释一下量子计算和量子纠缠的区别" L1
验收标准
解释清楚两个概念的核心区别(不要求技术细节,但逻辑要正确),字数 ≥ 100字
4分 两者区别清晰,无科学错误
3分 基本正确,但有一处小错误
2分 两者混淆或内容空洞
0分 严重科学错误或拒绝回答
T4 "把这段文字翻译成英文:深圳是中国改革开放的窗口城市,经济总量位居全国第三。" L1
验收标准
英文翻译准确、流畅,无语法错误
4分 准确流畅
3分 基本准确,有一处小瑕疵
2分 关键词漏译或误译
0分 拒绝/返回乱码
T5 "查一下深圳宝安机场到香港市区最快的交通方式,帮我算一下时间和费用" L2
验收标准
需调用地图/交通工具,返回至少2种交通方式的时间+费用对比
4分 ≥2种方式,数据具体(时间+费用),有对比
3分 1种方式,数据准确
2分 给了建议但数据缺失或明显错误
0分 无法调用相关工具
T6 "帮我查深圳3月25日直飞上海的机票,价格从低到高排序" L2
验收标准
调用航班工具,返回至少3个航班结果,含价格,按价格排序
4分 ≥3航班,价格排序正确
3分 1-2航班,价格排序正确
2分 返回结果但未排序或数据缺失
0分 工具调用失败/超时
T7 "搜索并阅读这篇英文文章,告诉我它的主要内容:https://example.com/tech-article" L2
验收标准
能访问URL并提取主要内容,摘要 ≥ 50字
4分 访问成功,摘要准确完整
3分 访问成功,摘要较完整但有小遗漏
2分 无法访问或摘要空洞
0分 拒绝访问
T8 "帮我把这个月的小红书收藏夹导出成清单" L2
验收标准
调用小红书收藏工具,返回收藏列表(标题+链接),≥5条
4分 ≥5条,格式清晰
3分 3-4条
2分 调用了工具但返回空或很少
0分 工具不可用或未登录
T9 "查一下香港到澳门的船票"(假设船票API临时维护返回错误) L2
验收标准
工具返回错误后,Agent 能给出替代方案(如巴士、跨境船等)
4分 识别错误,主动提供2+替代方案
3分 识别错误,提供1个替代方案
2分 识别错误但无替代,或不告知用户错误
0分 遇到错误直接放弃/乱返回
T10 "帮我发一条小红书帖子,内容是'测试',配一张图片"(但不提供图片) L2
验收标准
发现缺少图片时,主动询问用户,而非直接提交失败或跳过图片
4分 主动询问图片,并在用户回复后正确发布
3分 主动询问图片,但询问方式不清晰
2分 不询问就跳过图片或直接失败
0分 假装成功
T11 "帮我预订明天深圳去广州的高铁票"(明天是清明节,票已售罄) L3
验收标准
识别票已售罄,给出替代方案(其他日期/大巴/顺风车等)
4分 清晰告知售罄+≥2替代方案
3分 告知售罄+1替代方案
2分 告知售罄但无替代,或给出不可行的替代
0分 不告知票卖完了
T12 长对话记忆测试(15轮) L3
验收标准
在第1轮告知"我姓陈",第15轮问"我姓什么",Agent应回答"陈"
4分 15轮后仍记住
3分 10轮内记住,10轮后忘记
2分 5轮内记住
0分 第1轮就忘了(每次都重置)
T13 "我之前要查的是什么?"(在完成多个任务后) L2
验收标准
能准确复述用户在当前对话中提出的前一个请求
4分 准确复述
3分 大致正确但有遗漏
2分 混淆了任务
0分 完全不记得
T14 上下文窗口效率 L3
验收标准
完成 T12 长对话后,查 Agent 在本轮消耗的 Token 数。越少说明上下文压缩越好
4分 Token增幅 ≤ 30%(相比单轮)
3分 Token增幅 30-100%
2分 Token增幅 100-300%
0分 Token增幅 >300%(线性增长)
T15 "帮我规划一个深圳→云南(昆明+大理+丽江)7天6晚的行程" L3
验收标准
行程包含:每日景点、交通串联、住宿区域建议,时间合理(不过度赶路)
4分 7天全覆盖,交通串联合理,有取舍说明
3分 行程完整但有一处不合理(如路程过远)
2分 行程有明显漏洞(漏城市/时间冲突)
0分 拒绝/乱排
T16 "我有5000块预算,带父母(60岁)去北京玩5天,帮我规划" L3
验收标准
考虑老年人体力:行程不过度赶路,有休息安排;预算覆盖交通+住宿+门票,费用估算 ≤ 5000元/人
4分 预算合理+适合老人+天数完整
3分 满足3项中的2项
2分 满足3项中的1项
0分 不考虑老年人或预算严重超
T17 "帮我分析一下 OpenClaw 和 NanoClaw 哪个更适合搭建客服机器人" L3
验收标准
从多维度对比(功能、安全性、性能、成本、维护),给出明确推荐而非"各有千秋"
4分 对比全面,给出明确推荐及理由
3分 对比较全,但结论模糊
2分 对比维度少(<3个),但有结论
0分 胡乱对比或拒绝
T18 "帮我用中文写一封正式的商务邮件,内容是询问合作事宜" L1
验收标准
中文流畅、格式规范(称呼/正文/落款)、语气专业,无语法错误
4分 格式规范,语气专业,无错误
3分 有1-2处小瑕疵
2分 格式缺失或语气不当
0分 乱写/拒绝
T19 "帮我查一下顺丰快递从深圳寄到北京的费用"(国内快递) L2
验收标准
能调用快递工具或搜索,返回费用参考(首重+续重)
4分 有具体费用数据
3分 有估算但较准确
2分 无法查到,给出通用参考
0分 完全无法回答
T20 "帮我用飞书给同事发一条消息:明天下午3点开会"(飞书集成) L3
验收标准
能调用飞书工具,发送消息成功(需提前配置飞书 Webhook 或 API)
4分 成功发送,有回执
3分 调用成功但格式略有问题
2分 尝试调用但失败
0分 不支持飞书集成
---
三、评分汇总表
总分计算方式
- 每题满分4分,最高80分
- 各维度加权求和(见第一节权重)
- 最终得分 = (加权总分 / 80) × 100%,换算成百分制
- 附加分(可选):Token效率额外 ±5%
| Agent | 任务完成(30%) | 工具准确(25%) | 容错(15%) | 记忆(15%) | 推理(10%) | 中文(5%) | 总分 |
| OpenClaw | /30 | /25 | /15 | /15 | /10 | /5 | /100 |
| NanoClaw | /30 | /25 | /15 | /15 | /10 | /5 | /100 |
| Clawith | /30 | /25 | /15 | /15 | /10 | /5 | /100 |
| ClawTeam | /30 | /25 | /15 | /15 | /10 | /5 | /100 |
| MetaClaw | /30 | /25 | /15 | /15 | /10 | /5 | /100 |
---
四、执行计划
| 步骤 | 内容 | 产出 |
| 1 | 选定待测 Agent(建议先测 NanoClaw + OpenClaw + Clawith,共3款) | 确认名单 |
| 2 | 准备测试环境(API Key 配置、飞书/小红书等账号授权) | 环境清单 |
| 3 | 逐题测试,记录每题的原始输出 | 原始日志 |
| 4 | 按评分表打分,填入汇总表 | 评分表 |
| 5 | 横向对比,写结论报告 | 对比报告 |
建议先从 NanoClaw(你的)和 OpenClaw(官方)两款开始测起,差距会最明显。Clawith 测飞书集成能力。