Compartir:
Amazon Web Services (AWS) ha lanzado una innovadora solución diseñada para mejorar las operaciones de aprendizaje automático a gran escala. Esta nueva herramienta, denominada Amazon SageMaker HyperPod, está destinada a simplificar y optimizar el entrenamiento de modelos de machine learning (ML) utilizando un único clúster que puede ser compartido por múltiples usuarios sin interferencias entre ellos.
SageMaker HyperPod permite a investigadores, ingenieros, científicos de datos y administradores de clústeres trabajar simultáneamente mediante la utilización de opciones de orquestación ampliamente reconocidas, como Slurm o Amazon Elastic Kubernetes Service (EKS). En el entorno de Slurm, por ejemplo, se pueden implementar nodos de inicio de sesión que actúan como puntos de acceso dedicados, facilitando el acceso y la interacción con los recursos computacionales del clúster. Esto se logra al separar las actividades de los usuarios y mantener el rendimiento del sistema sin que un solo usuario pueda potencialmente generar un impacto negativo en todo el clúster.
Sin embargo, pese a las funcionalidades avanzadas de HyperPod, el sistema adolece de un mecanismo integrado para balancear de manera eficaz la carga entre los nodos de inicio de sesión. Esta ausencia puede desembocar en un uso desigual de los recursos, lo que a su vez afecta tanto la eficiencia como la experiencia del usuario. Para abordar este desafío, AWS sugiere implementar un sistema de balanceo de carga. La propuesta incluye la creación de un Equilibrador de Carga de Red (NLB), configurado dentro de una subred privada, para repartir el tráfico SSH entre los diversos nodos de inicio de sesión. De esta manera, se garantiza una distribución uniforme de las actividades de los usuarios, previniendo la formación de cuellos de botella y maximizando el aprovechamiento de los recursos disponibles.
La implementación de esta solución requiere que el clúster de HyperPod esté configurado dentro de una Virtual Private Cloud (VPC), con subredes y un grupo de seguridad asociados. Es también fundamental asegurar la coherencia de las claves de host SSH entre los nodos de inicio de sesión para mantener conexiones seguras y evitar notificaciones de discrepancias. Además, para posibilitar el acceso externo al NLB y a los nodos de inicio de sesión, AWS aconseja utilizar el servicio Client VPN para establecer conexiones seguras desde redes externas.
Con el lanzamiento de SageMaker HyperPod, AWS ofrece una solución flexible que se adapta a las distintas necesidades de los usuarios, mejorando tanto el acceso a los recursos de clústeres como el rendimiento general. Esta herramienta representa un avance significativo para las organizaciones que buscan optimizar sus procesos de aprendizaje automático, asegurando un entorno gestionado y resiliente que mejora la productividad y eficiencia del trabajo en equipo.