第65章｜发布与故障联动：发布标记、回归检测与自动止损

1. 发布标记（Release Marker）：把时间线对齐到“这一次变更”

发布标记是连接“交付系统”和“观测系统”的时间锚点。标记至少应包含： release_id、commit_sha、env、pipeline_run_id、deployer。有了这些字段，你才能在指标、日志、trace 中快速切片：发布前后谁变了，哪个服务最先劣化。

{
  "event_name": "release.promoted",
  "release_id": "rel-20260318-65",
  "commit_sha": "d4f2c1a",
  "env": "prod",
  "service": "checkout-api",
  "pipeline_run_id": "gha-19300211",
  "deployer": "cd-bot"
}

图 1：没有 marker，事故时间线只能靠猜；有 marker，因果分析有锚点。

2. 回归检测：从“感觉变慢了”到“统计上已偏离基线”

回归检测要避免两个陷阱：对随机噪声过度敏感，或者对真实劣化反应太慢。实战里常结合三件事：固定基线窗口（例如上一稳定版本 24h）、多信号投票（错误率 + p99 + 饱和度）、以及变化斜率判断（不是只看瞬时值）。

Detector	Strength	Weakness
Threshold-only	simple to explain	high false positives
Baseline delta	context-aware	needs clean baseline
Multi-signal vote	robust decisions	rule tuning complexity

# Conceptual regression scoring
score = 0
if error_rate_delta > 0.3: score += 2
if p99_delta_ms > 80: score += 2
if saturation_delta > 0.2: score += 1

if score >= 3:
    verdict = "regression_detected"

图 2：多信号投票可减少误报，把自动止损建立在更稳健的证据上。

3. 自动止损：暂停、回滚、降级的策略分层

自动止损不是“一键全撤回”。更好的策略是分层：先暂停推进（freeze rollout），再按严重度选择 traffic rollback 或 feature degrade。若涉及不可逆变更（如 DB migration），可先降级功能、再执行补偿流程。

# Mitigation ladder (illustrative)
if regression_detected and severity == "warning":
    action = "pause_rollout"
elif regression_detected and severity == "critical":
    action = "rollback_traffic"
elif dependency_non_reversible:
    action = "degrade_feature_and_notify"

图 3：止损不是二元开关，分层策略能兼顾可用性与恢复速度。

4. 让联动机制可审计：每次自动动作都要留下证据

自动系统如果不留审计证据，事后就无法区分“策略正确执行”还是“规则配置错误”。因此每次动作都应记录：触发信号、阈值快照、决策版本、执行结果、回滚耗时和责任人通知。

{
  "event_name": "mitigation.triggered",
  "release_id": "rel-20260318-65",
  "decision_rule_version": "mitigation-v3",
  "trigger_signals": ["error_rate_delta", "p99_delta_ms"],
  "action": "rollback_traffic",
  "result": "success",
  "elapsed_seconds": 98
}

底线：自动止损也要有“人工接管入口”。策略失灵时，值班工程师必须能一键覆盖自动决策。

5. 本章清单

为每次发布写入 release marker，并确保可在指标/日志/trace 中关联查询。
建立回归检测规则：基线窗口 + 多信号投票 + 变化斜率判断。
定义自动止损分层策略：暂停 → 回滚 → 降级，并绑定严重度等级。
将自动动作写入审计事件，包含触发原因和执行结果。
提供人工接管与策略回退机制，避免自动化误伤持续扩大。
预告下一章：DevSecOps 基础（威胁建模与全流程安全能力）。

web

第65章｜发布与故障联动：发布标记、回归检测与自动止损

Release correlation

Detect drift fast

Auto guardrails

1. 发布标记（Release Marker）：把时间线对齐到“这一次变更”

2. 回归检测：从“感觉变慢了”到“统计上已偏离基线”

3. 自动止损：暂停、回滚、降级的策略分层

4. 让联动机制可审计：每次自动动作都要留下证据

5. 本章清单