El gigante de Internet Cloudflare informa que su servicio de resolución de DNS, 1.1.1.1, fue recientemente inaccesible o degradado para algunos de sus clientes debido a una combinación de secuestro del Border Gateway Protocol (BGP) y una fuga de carretera.
El incidente ocurrió la semana pasada y afectó a 300 redes en 70 países. A pesar de estas cifras, la compañía afirma que el impacto ha sido «bastante pequeño» y en algunos países los usuarios ni siquiera lo han notado.
Detalles del incidente
Cloudflare informa que a las 18:51 UTC del 27 de junio, Eletronet SA (AS267613) comenzó a anunciar la dirección IP 1.1.1.1/32 a sus pares y proveedores ascendentes.
Este anuncio incorrecto fue aceptado por múltiples redes, incluido un proveedor de nivel 1, que lo trató como una ruta de agujero negro iniciado remotamente (RTBH).
El secuestro se produjo porque el enrutamiento BGP favorece la ruta más específica. El anuncio de AS267613 versión 1.1.1.1/32 fue más específico que el de Cloudflare 1.1.1.0/24, lo que llevó a las redes a enrutar incorrectamente el tráfico a AS267613.
Como resultado, el tráfico destinado a Cloudflare DNS Resolver 1.1.1.1 fue bloqueado/rechazado y, como resultado, el servicio dejó de estar disponible para algunos usuarios.
Un minuto más tarde, a las 18:52 UTC, Nova Rede de Telecomunicações Ltda (AS262504) filtró por error 1.1.1.0/24 ascendente a AS1031, lo que lo propagó aún más, afectando el enrutamiento general.
Esta filtración alteró las rutas de enrutamiento BGP normales, lo que provocó que el tráfico destinado a la versión 1.1.1.1 se desviara incorrectamente, lo que exacerbó el problema de piratería y provocó problemas adicionales de accesibilidad y latencia.
Cloudflare identificó los problemas alrededor de las 8:00 p. m. UTC y solucionó el problema aproximadamente dos horas después. La fuga de ruta se resolvió a las 02:28 UTC.
Esfuerzo de remediación
La primera línea de respuesta de Cloudflare fue interactuar con las redes involucradas en el incidente mientras deshabilitaba las sesiones de peering con todas las redes problemáticas para mitigar el impacto y evitar una mayor propagación de rutas incorrectas.
La compañía explica que los anuncios incorrectos no afectaron el enrutamiento de la red interna debido a la adopción de la Infraestructura de clave pública de recursos (RPKI), que condujo al rechazo automático de rutas no válidas.
Las soluciones a largo plazo presentadas por Cloudflare en su informe post mortem incluyen:
- Mejorar los sistemas de detección de fugas en rutas incorporando más fuentes de datos e integrando puntos de datos en tiempo real.
- Promover la adopción de Infraestructura de Recursos de Clave Pública (RPKI) para la Validación del Origen de Carreteras (ROV).
- Promover la adopción de los principios de los Estándares Mutuamente Acordados para la Seguridad de Enrutamiento (MANRS), que incluyen el rechazo de longitudes de prefijos no válidas y la implementación de mecanismos de filtrado sólidos.
- Aliente a las redes a rechazar prefijos IPv4 de más de /24 en la Zona Franca Predeterminada (DFZ).
- Abogar por la implementación de objetos ASPA (actualmente escritos por el IETF), que se utilizan para validar la ruta AS en anuncios BGP.
- Explore el potencial para implementar RFC9234 y Descartar Autorización de Origen (DOA).