Predicción del tráfico en la red backbone de AWS para mitigar riesgos utilizando GraphStorm

Elena Digital López

AWS sigue innovando en la gestión de su vasta red global, considerada la columna vertebral que asegura la entrega confiable de servicios a través de sus múltiples regiones. Esta infraestructura interconecta 34 regiones, más de 600 puntos de presencia de Amazon CloudFront, 41 Zonas Locales y 29 Zonas de Longitud de Onda, proporcionando conectividad de alto rendimiento y latencia ultrabaja en 245 países y territorios.

La gestión eficaz de esta red requiere un trabajo continuo de planificación, mantenimiento y operaciones en tiempo real. Aunque la mayoría de las actualizaciones se implementan sin inconvenientes, la complejidad y el alcance global de este sistema pueden ocasionalmente generar impactos no previstos en su rendimiento y disponibilidad. Las complejas interdependencias entre los distintos componentes de la red requieren métodos avanzados de evaluación de riesgos y estrategias de mitigación para prever y gestionar estos retos.

Las dificultades surgen especialmente al intentar anticipar cómo los cambios en una parte de la red afectan a la totalidad de la infraestructura, en términos de tráfico y rendimiento. Las interrogantes principales incluyen si la red puede soportar el tráfico con la capacidad disponible, cuánto tiempo pasará antes de que se produzca congestión, dónde es más probable que surjan estos problemas y el volumen de tráfico que podría ser rechazado.

Para abordar estos retos, AWS está mejorando sus mecanismos de seguridad y evaluación de riesgos. La planificación meticulosa para diseñar y construir la red contempla diversos escenarios, asegurando resiliencia mediante simulaciones y pruebas exhaustivas de cada modificación, independientemente de su magnitud.

Sin embargo, para una red de tal escala y complejidad, las simulaciones enfrentan restricciones en operaciones en tiempo real, sobre todo por el elevado coste y tiempo de cálculo que requieren. AWS ha optado por complementar estas simulaciones con estrategias basadas en datos que escalen de acuerdo con las necesidades de la red sin un aumento en el tiempo de procesamiento.

Recientemente, AWS ha aplicado técnicas avanzadas de aprendizaje automático mediante gráficos, utilizando el marco GraphStorm, para mejorar las predicciones en sus redes complejas. Estos métodos han logrado un rendimiento sobresaliente en tareas relacionadas con el tráfico, como el enrutamiento y la distribución de carga, aprovechando su capacidad para captar información estructural dentro de la topología de la red.

En pruebas recientes con 85 segmentos de la red backbone, llevadas a cabo durante dos semanas, los modelos de redes neuronales de gráficos lograron predecir el tráfico con un margen de error del 13% en el percentil 90. Esta precisión no solo optimiza la operación diaria, sino que también refuerza la seguridad operativa.

AWS ha desarrollado una arquitectura de sistemas que integra GraphStorm con varios de sus servicios, permitiendo una formación de modelos escalable y eficiente. Este sistema facilita una formación del modelo continua, inferencias rápidas e integración fluida con flujos de trabajo existentes, mejorando la gestión de la red ante las dinámicas cambiantes del tráfico global.

Con estos avances, AWS se enfoca en mantener un equilibrio entre satisfacer las necesidades de sus clientes y conservar la operatividad segura de su infraestructura, y anunció que continuará comunicando sus progresos en la implementación de esta solución.

Scroll al inicio