上线前把安全想清楚,通常比出事后写复盘便宜一个数量级。下面按「真要接生产流量」来写,不是贴墙上没人看的检查表。
只有一分钟? 记住三件事:权限能收紧就别敞着;密钥能轮换就别万年不换;出事时日志能对上号。缺一条,对外开服就要多掂量一下。
适合谁读:准备让 OpenClaw 承接真实用户或真实业务的人——对内对外都算。内网也一样:内网主要挡外面的手,挡不住误操作和乱七八糟的授权。
生产、预发、测试别共用一套账号糊在一起。每个 Agent 绑哪些渠道、能用哪几个 Skill,心里要有数。我们见过最头疼的不是「不会配」,而是所有人共用一个「超级 Bot」,后来谁改了一点都不敢动。
删库级、改生产路由、第一次接那种权限很大的 OAuth——找人多看一眼,不丢人。
用团队现成的 Secret 管理或平台托管;走环境变量的话,确认 CI 日志、错误页、调试接口不会把值打出来。
轮换别写在文档里就完事:日历上约一次「真换一把 Key」,你会立刻发现 Runbook 少了哪一步。泄露了怎么办,提前写死四步:吊销旧的、把最近调用翻一遍、该通知的人通知到、最后查清楚是截图泄的、CI 泄的,还是共享屏幕泄的。
依赖用 lockfile,升级走工单,别生产环境随手跟 latest 跑。第三方插件进名单:谁引入、什么版本、出问题找谁;新来的先在隔离环境跑几天再进核心链路。
镜像用瘦一点的基座,定期重建拿底层补丁;镜像里别塞一堆用不着的 shell 工具,攻击面是实实在在多出来的。
最少要能串起来:谁、几点、对什么资源、做了什么、成没成,再带个请求 ID 或会话 ID。保存多久听法务和合规的,但工程上你得能做到「从用户一句话追到下游那次 HTTP」。
别只监控「进程还在不在」。Skill 错误率或超时突然飙了、某个身份短时间狂打敏感接口,往往更值得先看一眼。有些「从没见过的调用形状」可以用简单规则先 flag,再让人肉跟一下,别指望一条规则吃天下。
值班文档请写人话:先看哪个日志索引、谁有权临时关掉哪个渠道、回滚到上一版配置是点哪里还是跑哪条命令——写清楚比写全更重要。
| 时间段 | 你想达到啥 | 可以做的事 |
|---|---|---|
| 0~15 分钟 | 先止血 | 停掉可疑 Skill 或渠道;核心链路必要时先只读 |
| 15~60 分钟 | 搞清楚是啥级别的事 | 配置手滑?权限滥用?还是外面打进来的?先分类 |
| 1~24 小时 | 修好并证明修好了 | 打补丁、轮换密钥、收紧策略;在预发按同样路径复现一遍再放量 |
| 隔天以后 | 别白疼一场 | 简短复盘一页纸,该补的告警补上,Runbook 改一版 |
「我们内网啊」——内网防不住误操作和过度授权。「上线前扫过一次」——不嵌进每次发版流程,基本等于没扫。还有一种:高危操作没审计,事后根本对不上是谁干的,只能全员猜。
不用很正规,白板够用:谁能从哪些口子碰到 Agent? Agent 能调哪些 Skill,能不能读盘、执行命令、写库?模型 Key、渠道 Token、企业 OAuth 分别躺在哪、谁能看见?会话里会不会飘过手机号、工单号、代码片段,日志是不是原文落盘?
这一页画完,后面权限和日志怎么取舍,你才有依据,而不是对着一百个配置项发呆。
人的事交给 IAM / SSO,别和 Bot 权限搅成一锅粥。Agent 这一层管「能进哪些渠道、能喊哪些 Skill」。Skill 里面再用服务账号调内部系统,别拿管理员个人 Token 顶。对接 CRM、工单这类系统,先只读跑顺,写操作尽量幂等,或者该审批的走审批。
双人复核留给那种一失手就全村吃饭的动作:批量删数据、改线上路由、导入来历不明的新插件、第一次开特别高权限的 OAuth。
每次发版固定几件事:配置 diff 有人看吗?有没有新密钥要登记?有安全相关的自动化就顺手跑一下。大版本前在预发用脱敏数据把主流程摸一遍,再慢慢切流量,比一口气全量稳得多。
真的出事或演练都行:几点发现、影响面多大、怎么停的、根因算哪一类、根治做了什么、监控有没有补。这是给团队接力用的,不是写给领导看的八股——有人离职、有人新来,靠这一页能少打很多微信。
更新:BestClaw 编辑部,2026-03-21。
说明:通用实践,不是法律意见或正式审计结论;落地以前请结合你们自己的合规要求。
作者

BestClaw 编辑部