La seguridad de Microsoft Office 365 MFA se bloquea por segunda vez

La autenticación multifactor (MFA) de Microsoft para Office 365 y Azure Active Directory se ha caído por segunda vez en una semana.

La página de estado del servicio de Azure entregó las malas noticias del martes:

Entre las 14:25 UTC y las 17:08 UTC del 27 de noviembre de 2018, los clientes que utilizan la autenticación multifactor (MFA) pueden tener problemas intermitentes al iniciar sesión en los recursos de Azure, como Azure Active Directory, cuando la política exige la MFA.

Oficialmente, solo faltan tres horas para no tener un AMF intermitente o no, aunque tardó hasta las 18:53 UTC para que la cuenta de Twitter de Microsoft se volviera lo suficientemente segura como para anunciar que el servicio estaba definitivamente en funcionamiento nuevamente.

El análisis de causa raíz inicial (RCA) de Microsoft: algo salió mal a nivel de DNS, lo que llevó a que la infraestructura que soporta MFA se vuelva "insalubre".

La solución fue reiniciar, lo que parecía funcionar, pero a costa de recibir varios tweets sarcásticos que felicitaban a Microsoft por un reinicio / apagado exitoso .

Déjà vu – todo de nuevo

Este problema es el más reciente en lo que se está convirtiendo rápidamente en una larga lista de errores para Microsoft en las últimas semanas. La compañía acaba de publicar una explicación de una interrupción más prolongada y grave del AMF el 19 de noviembre que dejó a muchos clientes incapaces de iniciar sesión en Office 365 o Azure durante un día laboral completo, o en algunos casos, más.

Esto incluyó las admisiones francas sobre lo que la compañía dijo que eran tres causas raíz interconectadas:

  1. Con cargas de tráfico elevadas, la comunicación del servidor de aplicaciones para el usuario de Azure MFA con los servicios de caché se deterioró (lo cual, irónicamente, existe para aumentar el rendimiento).
  2. Esto provocó una "condición de carrera" en el procesamiento de las respuestas de los servidores backend de la MFA, una forma de decir que diferentes partes del sistema de la MFA no estaban sincronizadas entre sí lo suficiente como para evitar que se comuniquen adecuadamente.
  3. Esto provocó la sobrecarga de los servicios de back-end, momento en el que MFA dejó de funcionar.

Extraordinariamente, este es el bit que hará que algunos clientes se sienten, Microsoft no notó nada de esto hasta que los usuarios comenzaron a quejarse de la desaparición de MFA.

¿Cómo es eso? Porque:

Las brechas en la telemetría y el monitoreo de los servicios de AMF demoraron la identificación y comprensión de estas causas fundamentales que causaron un tiempo de mitigación prolongado.

Luego, Microsoft explica cómo el intento de solucionar los problemas anteriores para las regiones de APAC y EMEA al redireccionar el tráfico de MFA a través de los cachés de los Estados Unidos simplemente empeoró las cosas allí también.

Habiendo emitido una autopsia para la primera interrupción, Microsoft ha prometido seguir con algo similar para el martes.

¿Qué podría estar pasando?

Quizás haya una pequeña pista en el análisis de la interrupción del 19 de noviembre donde Microsoft menciona que el servicio estaba luchando para hacer frente a los altos niveles de tráfico.

Quizás, entonces, es simplemente que muchas organizaciones y consumidores han estado activando el MFA, lo que no sería sorprendente, dado que Microsoft misma ha estado promoviendo los beneficios de seguridad adicionales que puede brindar.

Entonces, seamos positivos: los cortes pueden no ser síntomas del fracaso de MFA, sino más bien su repentina y muy bien recibida popularidad.