- enero 15, 2026
- 0 Comments
- By Elena
Introducción
La gestión de crisis técnicas es una disciplina fundamental en la operación de soporte informático y departamentos de TI que enfrentan incidentes de alta severidad. Un fallo de infraestructura, caída de servicios críticos o brecha de seguridad pueden generar impactos significativos en la productividad, reputación y continuidad del negocio. Una respuesta estructurada y profesional permite recuperar la operatividad, mitigar consecuencias y extraer aprendizajes para evitar recurrencias.
Esta guía profesional y técnica se dirige a responsables de TI, equipos de soporte, arquitectos y equipos de continuidad que desean implementar un marco sólido de gestión de crisis, alineado con ITIL, ISO 22301 y cobit. Abordaremos desde la detección de la crisis, activación de equipos, comunicación hasta la lección aprendida, incluyendo herramientas, KPIs y casos de uso.
Definición y tipología de crisis técnicas
Se denomina crisis técnica a un incidente con impacto mayor al servicio, exigencia de respuesta urgente y repercusión en múltiples áreas del negocio. Tipologías:
- Caídas totales del sistema (ERP, CRM, e-commerce).
- Pérdida de conectividad o infraestructura de red.
- Brechas de acceso, ransomware, incidentes de seguridad.
- Degradación significativa de la experiencia del usuario.
- Fallos en backups, Recovery o integraciones críticas.
- Incidentes operacionales durante despliegues.
La gestión estructurada de cada tipología varía, pero se comparte un modelo común de respuesta ágil y coordinada.
Impacto potencial y coste de una gestión inadecuada
Los efectos de una crisis mal gestionada pueden incluir:
- Pérdida económica por día de inactividad.
- Daño reputacional y desconfianza del cliente.
- Infracción de SLAs o contratos con penalizaciones.
- Pérdida de datos, brechas regulatorias.
- Agotamiento del personal, decisiones reactivas, cascadas fallidas.
Un enfoque reactivo aumenta el coste y alarga el impacto. La inversión en preparación se justifica con un ROI directo.
Principios del framework de respuesta a crisis
Un modelo robusto debe basarse en:
- Preparación anticipada
- Documentación, plan de comunicación, pruebas periódicas.
- Formación de equipos, simulacros y preparación técnica.
- Clara asignación de roles y responsabilidades
- Comité directivo (Crisis Manager).
- Response Team: incident manager, comunicación, TI, seguridad, legal.
- Procedimientos definidos, no improvisados
- Guías paso a paso de activación, toma de decisiones, verificación.
- Comunicación proactiva y estandarizada
- Actualizaciones regulares a stakeholders clave y usuarios.
- Revisión y mejora post-crisis
- Post-mortem con análisis de causa raíz (RCA), actualización de planes.
Estructura del equipo de gestión de crisis
Roles clave
- Crisis Manager: responsable general de la respuesta; decisiones y escalado.
- Incident Manager / Technical Lead: lidera la resolución técnica.
- Comms Manager: prepara mensajes, canales y audiencias.
- Security Officer: coordina respuesta si hay componente de seguridad.
- Legal / Compliance: aval comunicación legal y contractual.
- Operaciones del negocio: informan impacto real y priorización.
Comité de Crisis
Activado cuando el incidente cumple criterios de impacto (tiempo, usuarios, actividad comercial). Controlan progreso y recursos. Debe contar con canal dedicado y prioridad de acceso a sistemas y personal.
Detección y clasificación de la crisis
Origen del disparador
- Alertas de monitoreo (eventos críticos, sensores)
- Tickets de múltiples usuarios
- Sistemas de alerta de seguridad / SIEM
- Notificación proactiva de proveedores
Clasificación del nivel de crisis
- Nivel 1: Impacto local, degradación, sin interrupción mayor.
- Nivel 2: Múltiples usuarios o servicios críticos afectados.
- Nivel 3: Caída total o brecha grave, riesgo legal elevado.
Cada nivel activa una plantilla distinta de responsables y recursos.
Fases del proceso de respuesta
Activación
Se notifica al comité y se crea un canal (Teams, Slack, War Room). Se abre ticket “Crisis” con cronología inicial y responsables.
Evaluación rápida
Technical Lead evalúa alcance, impacto, stakeholders afectados. Se define alcance: sistemas implicados, usuarios, mercados.
Contención
Acciones inmediatas para evitar propagación: restart, switch a standby, cine roles, backup, rollback, bloqueo de accesos.
Diagnóstico
Recolección de logs, data, dumps, timeline, monitoreo. Puesta en marcha del RCA inicial para decidir acciones perimetrales.
Erradicación
Aplicación de correcciones temporales o definitivas: parche, rollback, cambio de configuración.
Recuperación
Restauración de servicios, cargas de trabajo, validación funcional. Se comunica reinicio del servicio y confirmación.
Cierre de la crisis
Ticket documentado con cronología, acciones, autorizaciones. Informe inicial de incidente mayor para acciones posteriores (RCA).
Comunicación interna y externa
Interna
- Mensajes regulares (cada X minutos/hora) a comité y equipos de TI.
- Tablero de estado compartido.
- Alta transparencia sobre tiempo estimado, impedimentos.
Externa
- Usuarios internos clientes: emails, canales corporativos.
- External: comunicación de outage en web, redes sociales, soportes SLA formal.
El mensaje debe incluir situación, compromiso, orientación y tiempos estimados.
Tecnologías y herramientas de apoyo
- Sistemas de monitoreo (Prometheus, Zabbix, Datadog) para detección y contención.
- ITSM: incidentes mayores y flujos específicos en ServiceNow, Jira.
- SIEM: detección de log, correlación, alertas de seguridad.
- War Room channels: Teams, Zoom, Slack con registro de chat.
- Dashboards de visibilidad: con KPIs de caída y tiempos.
- Sistemas de recovery: backups automatizados, snapshots, convalidadores.
Medición y KPIs en gestión de crisis
Indicadores críticos:
- MTTI: tiempo de detección inicial.
- MTTA: tiempo para iniciar contención.
- MTTR-crisis: tiempo para restaurar servicios.
- MTTC: tiempo total hasta cierre administrativo.
- Número de fallos secundarios tras recuperación.
- SLA de actualización: periodicidad de comunicaciones.
- Coste de la crisis (CPI, horas hombre).
- Reincidencias similares tras 6–12 meses.
Evaluación post-crisis contra objetivos definidos en plan.
Integración con procesos de continuidad y seguridad
- ISO 22301: la Crisis Response Plan complementa el Business Continuity Plan.
- ISO 27035 / NIST: gestión de incidentes de seguridad.
- ITIL: Incident → Major Incident → Problem → RCA → CSI.
- Disaster Recovery: roles, backups, RTO/RPO.
- Security Incident Response: si hay ataque implicado.
La coordinación entre equipos (TI, seguridad, continuidad, legal) mejora eficacia.
Retos habituales y cómo superarlos
- Confusión de roles → definir comité, matrix RACI, formación vigente.
- Falta de monitorización estándar → dashboard unificado, SLIs predefinidos.
- Comunicación insuficiente → plantillas, coordinación centralizada (Comms Manager).
- Inacción post-incidente → plan formal de RCA, seguimiento de acciones.
- Burnout del equipo → cadencia de guardias, rotación, apoyo psicosocial.
- Negligencia en simulacros → calendarios simulacros obligatorios, auditorías.
Plan de implementación paso a paso
- Definir política de gestión de crisis: niveles, roles, criterios.
- Documentar procedimientos y activación War Room.
- Configurar herramientas: canal crisis, flujos incidentes mayores, alarmas.
- Formar y entrenar equipos: roles, toolkits, simulacros.
- Pilotaje con incidente menor: medir tiempos, evaluación.
- Realizar simulacros y ajustar rutas de comunicación.
- Evaluar KPIs y revisar RCA inicial.
- Actualizar documentación y herramientas según feedback.
- Establecer ciclo anual de revisión y continuidad.
- Promover cultura de resiliencia: comunicados, promociones, reconocimiento.
Conclusión y próximos pasos
La gestión estructurada de crisis técnicas permite:
- Restituir rápidamente servicios críticos.
- Mitigar el impacto legal y reputacional.
- Favorecer cultura de excelencia y preparación.
- Asegurar continuidad y resiliencia organizacional.
Siguientes pasos concretos:
- Auditar situación actual frente a framework propuesto.
- Documentar plan básico con roles y flujos.
- Habilitar herramientas en ITSM/monitoreo para detección y canal de crisis.
- Realizar simulacros en los próximos 3–6 meses.
- Revisar KPI, actualizar procesos, comunicar logros.


