Runbooks¶
Los runbooks operacionales viven en docs/runbooks/. Estado actual:
gap — el directorio está vacío. Esta página existe para señalizarlo
y listar los runbooks que deberíamos crear antes de cruzar a qa.
Gap conocido. No bloquea Fase 2 dev pero es bloqueante para qa/prod.
Runbooks recomendados (a crear)¶
Operación¶
docs/runbooks/on-call-rotation.md— quién responde, escalation path.docs/runbooks/incident-response.md— severities, SLAs, comunicación.
Por servicio¶
docs/runbooks/tenant-mgmt-recovery.md— restore desde backups DDB, replay outbox.docs/runbooks/flow-engine-stuck-conversations.md— detectar y desbloquear conversaciones colgadas en un step.docs/runbooks/inbound-router-webhook-replay.md— reprocesar webhooks desde DLQ.docs/runbooks/connectors-circuit-breaker.md— reset manual del breaker en SSM.docs/runbooks/outbound-dispatcher-campaign-pause.md— pausar/abortar una campaña en vuelo.
Infra¶
docs/runbooks/aws-cost-spike.md— diagnóstico de spikes.docs/runbooks/ddb-throttling.md— adaptive capacity, on-demand vs provisioned.docs/runbooks/cognito-user-pool-recovery.md— recuperar usuarios, exportar/importar.docs/runbooks/cloudfront-invalidation.md— invalidations masivas.docs/runbooks/terraform-state-recovery.md— corrupción de state, import manual.
Seguridad¶
docs/runbooks/secrets-rotation.md— rotación de Secrets Manager.docs/runbooks/key-compromise.md— qué hacer si se filtra una key.docs/runbooks/cognito-mfa-reset.md— reset MFA de un usuario.
Plantilla sugerida¶
Cada runbook debe seguir:
# <Título>
**Owner:** <equipo>
**Severity aplicable:** S1 / S2 / S3
**Tiempo estimado:** <minutos>
## Síntomas
- ...
## Diagnóstico
1. Comando para confirmar
2. Métrica a revisar
## Mitigación
1. Acción inmediata
2. Validación
## Recuperación
- Cómo restaurar estado normal
## Post-mortem
- Cómo escribir el post-mortem (link a template)