OpenClaw 多模型路由策略：Anthropic 与 OpenAI 的缓存协同

背景

在 OpenClaw 的实际生产场景中，单一模型策略很容易遇到三类问题：

高峰期延迟不稳定
输入 token 成本不可控
任务质量要求不一致（有些任务追求速度，有些任务追求推理质量）

因此，企业通常会采用 多模型路由（Multi-Provider Routing）：同一请求入口，根据任务特征路由到 Anthropic 或 OpenAI，并通过缓存协同降低总体成本。

一、先看差异：Anthropic 与 OpenAI 的缓存机制

1. 缓存标记方式不同

Anthropic（messages 路径）常见方式是对消息块打 cache_control: { type: "ephemeral" }
OpenAI（responses 路径）常见方式是透传 prompt_cache_key、prompt_cache_retention

这意味着：你不能只做“统一缓存开关”，必须按 provider 的协议差异做策略适配。

2. 命中前提相同：前缀稳定

无论是 Anthropic 还是 OpenAI，真正决定命中率的都是 system prompt 前缀是否稳定。
OpenClaw 的 CACHE_BOUNDARY 设计，本质就是为了固定稳定前缀，隔离动态后缀。

3. 计费侧重点不同

首次写入缓存会有 cache creation 成本
后续命中缓存会转为 cache read（通常更低）

因此要避免两个极端：

每次 prompt 差异很大，写入多命中少
为了命中强行固定上下文，导致回答质量下降

二、路由条件怎么定：先规则，后学习

建议从规则路由起步，稳定后再叠加策略学习。可先按任务类型做三层路由：

L1：硬规则（必须满足）

合规等级：是否允许某 provider
区域/租户约束：企业客户的地域与数据边界
可用性：provider 实时健康状态、超时率、错误率

L2：成本规则（同质任务选便宜）

预测输入 token 大于阈值时，优先走缓存命中更稳的一侧
对重复请求比率高的业务（客服、标准问答），优先走缓存协同更强路径

L3：质量规则（关键任务选质量）

长链路推理、复杂代码分析、严肃写作：优先高质量模型
普通摘要、结构化提取：优先高性价比模型

三、缓存协同策略：不是“平均分流”，而是“按稳定前缀聚类”

很多团队把 Anthropic 与 OpenAI 做 50/50 分流，但这会破坏缓存收益。
更有效的做法是：按稳定前缀聚类路由。

示例：

同一个业务模板（同一 system 前缀）固定主 provider
仅在该 provider 异常时切到备 provider
回切时保持 key 规则不变，避免缓存上下文抖动

这样做可以避免“每边都在写缓存，但都命中不深”的浪费。

四、成本与质量平衡：给你一个可执行的评分模型

可定义一个简单评分：

route_score = w1 * quality_score + w2 * latency_score + w3 * cache_hit_score - w4 * cost_score

建议初始权重（可按业务调整）：

内容生成类：w1=0.4, w2=0.2, w3=0.2, w4=0.2
在线客服类：w1=0.2, w2=0.3, w3=0.3, w4=0.2
内部批处理：w1=0.2, w2=0.1, w3=0.3, w4=0.4

关键是把 cache_hit_score 独立出来，不要只看单次请求单价。

五、落地配置建议（OpenClaw 侧）

1. 统一 key 生成规则

相同模板必须生成相同 prompt_cache_key
key 只包含稳定前缀语义，不包含会抖动的动态参数

2. 保证缓存字段不被剥离

在 OpenAI responses 路径上，确认不会误删：

prompt_cache_key
prompt_cache_retention

3. 保持上下文顺序稳定

上下文文件顺序不要频繁改动，否则命中率会明显下滑。
尤其是 soul/identity/tools/memory 这类稳定文件，应保持固定排序。

六、监控与告警：没有观测就没有协同

建议至少上这组指标：

cache_creation_input_tokens
cache_read_input_tokens
input_tokens
provider 维度的 p95 latency
provider 维度错误率

可设置两条实用告警：

cache_read_input_tokens / input_tokens 连续 15 分钟低于阈值
主 provider 错误率突增后，备路由切换率异常升高

七、推荐实施路径（两周版）

第 1 阶段（1-3 天）

按任务类型做硬规则路由
打通缓存观测指标
确认缓存字段透传

第 2 阶段（4-7 天）

按稳定前缀聚类路由
引入主备 provider 策略
建立异常回退与回切机制

第 3 阶段（8-14 天）

引入评分模型做动态权重
按租户/场景分层调参
固化周报（成本、延迟、命中率）

结语

OpenClaw 的多模型路由，核心不是“多接几家 API”，而是把 缓存命中、路由条件、质量目标 统一进同一套策略体系。
当 Anthropic 与 OpenAI 的缓存机制被协同起来时，企业通常可以同时拿到：

更低的输入成本
更稳的线上延迟
更可控的质量下限

OpenClaw 多模型路由策略：Anthropic 与 OpenAI 的缓存协同

目录