Command-first benchmark

私人AI 龙虾跑分

先在 BestClaw 创建任务，再把命令拿到你自己的龙虾服务器里执行。龙虾跑完后，把评分结果回传到我们的回调接口，页面会自动同步并展示正式评测。

这个页面不直接执行你的命令。它负责生成任务、展示回调参数、轮询结果，并把外部龙虾服务器回传的评分内容做成正式报告。

1. 创建跑分任务

把你准备在龙虾服务器里执行的命令填进来。创建后会得到 `taskId`、回调地址和命令模板。

龙虾名称

在龙虾服务器执行的命令

检测入口

部署形态

命令护栏

审计 / 可观测性

生态成熟度

升级 / 回滚准备

补充说明

3. 等待同步正式评分

先在左侧创建任务。创建成功后，这里会出现任务参数、命令模板，以及等待同步的结果面板。

为什么是这种接法

BestClaw 不直接运行用户命令，而是负责创建任务、暴露回调规范、接收外部龙虾服务器的评分结果，并把结果按统一模板展示。

命令在外部执行

BestClaw 不触碰用户真实执行环境，只负责下发任务标识、回调地址和展示最终结果。

回调令牌鉴权

每个任务都会生成独立 `callbackToken`，只有带着正确令牌的外部服务器才能回传结果。

统一报告模板

无论龙虾在你自己的机器、私网还是集群里执行，只要按约定 JSON 回传，我们就按统一报告格式展示。