Saltar a contenido

Runbooks

Los runbooks operacionales viven en docs/runbooks/. Estado actual: gap — el directorio está vacío. Esta página existe para señalizarlo y listar los runbooks que deberíamos crear antes de cruzar a qa.

Gap conocido. No bloquea Fase 2 dev pero es bloqueante para qa/prod.

Runbooks recomendados (a crear)

Operación

  • docs/runbooks/on-call-rotation.md — quién responde, escalation path.
  • docs/runbooks/incident-response.md — severities, SLAs, comunicación.

Por servicio

  • docs/runbooks/tenant-mgmt-recovery.md — restore desde backups DDB, replay outbox.
  • docs/runbooks/flow-engine-stuck-conversations.md — detectar y desbloquear conversaciones colgadas en un step.
  • docs/runbooks/inbound-router-webhook-replay.md — reprocesar webhooks desde DLQ.
  • docs/runbooks/connectors-circuit-breaker.md — reset manual del breaker en SSM.
  • docs/runbooks/outbound-dispatcher-campaign-pause.md — pausar/abortar una campaña en vuelo.

Infra

  • docs/runbooks/aws-cost-spike.md — diagnóstico de spikes.
  • docs/runbooks/ddb-throttling.md — adaptive capacity, on-demand vs provisioned.
  • docs/runbooks/cognito-user-pool-recovery.md — recuperar usuarios, exportar/importar.
  • docs/runbooks/cloudfront-invalidation.md — invalidations masivas.
  • docs/runbooks/terraform-state-recovery.md — corrupción de state, import manual.

Seguridad

  • docs/runbooks/secrets-rotation.md — rotación de Secrets Manager.
  • docs/runbooks/key-compromise.md — qué hacer si se filtra una key.
  • docs/runbooks/cognito-mfa-reset.md — reset MFA de un usuario.

Plantilla sugerida

Cada runbook debe seguir:

# <Título>

**Owner:** <equipo>
**Severity aplicable:** S1 / S2 / S3
**Tiempo estimado:** <minutos>

## Síntomas
- ...

## Diagnóstico
1. Comando para confirmar
2. Métrica a revisar

## Mitigación
1. Acción inmediata
2. Validación

## Recuperación
- Cómo restaurar estado normal

## Post-mortem
- Cómo escribir el post-mortem (link a template)