Soporte de Amazon EKS en Amazon SageMaker HyperPod: una nueva era en la gestión de contenedores

Elena Digital López

Estamos emocionados de anunciar la introducción del soporte de Amazon Elastic Kubernetes Service (Amazon EKS) en Amazon SageMaker HyperPod, una infraestructura especializada diseñada con la resiliencia como base. Esta capacidad permite la adición fluida de computación gestionada por SageMaker HyperPod a los clústeres de EKS, utilizando características automatizadas de resiliencia para nodos y trabajos en el desarrollo de modelos de base (Foundation Models, FM).

Los FMs suelen ser entrenados en clústeres de computación a gran escala con cientos o miles de aceleradores. En tales circunstancias, las fallas de hardware representan un desafío significativo, ya que un solo fallo entre miles puede detener todo el proceso de entrenamiento. Un ejemplo de esto es el modelo Meta Llama 3 405B, que durante su pre-entrenamiento de 54 días en 16,000 NVIDIA H100 Tensor Core GPUs, experimentó 419 interrupciones inesperadas, de las cuales el 78% se atribuyeron a problemas de hardware confirmados o sospechosos, y el 58.7% fueron problemas relacionados con GPU, incluidas fallas de NVLink y HBM3 memory.

Desde su creación, SageMaker HyperPod se diseñó con características de resiliencia gestionada para mitigar tales fallas de hardware, permitiendo que los constructores de FM, como Thomson Reuters, Perplexity AI y Hugging Face, escalen su entrenamiento y la inferencia de FM en clústeres de Slurm. Con el soporte de EKS en HyperPod, ahora también se pueden aprovechar las características de resiliencia en clústeres de Kubernetes, gestionando cargas de trabajo de machine learning utilizando la computación de HyperPod y el plano de control gestionado de Kubernetes en el clúster de EKS.

Startups de IA como Observea y Articul8, y empresas como Thomson Reuters, utilizan este nuevo conjunto de características para gestionar su ciclo de desarrollo de modelos de ML:

«Gracias a nuestro uso de SageMaker HyperPod, nuestros clientes y equipos internos ya no tienen que preocuparse por operar y configurar el plano de control de Kubernetes. SageMaker HyperPod proporciona el rendimiento de red y las configuraciones optimizadas para soportar cargas de trabajo complejas de HPC. Con el soporte de Amazon EKS en SageMaker HyperPod, podemos reducir el tiempo invertido en la gestión de infraestructuras y reducir los costos operativos en más del 30%.» – Observea.

«Como casa de Kubernetes, estamos emocionados por el lanzamiento del soporte de Amazon EKS para SageMaker HyperPod. Esto cambia las reglas del juego para nosotros ya que se integra perfectamente con nuestras tuberías de entrenamiento existentes y facilita aún más la gestión y operación de nuestros clústeres de Kubernetes a gran escala. Además, esto también beneficia a nuestros clientes finales, ya que ahora podemos empaquetar y productizar esta capacidad en nuestra plataforma GenAI, permitiendo a nuestros clientes ejecutar sus propias cargas de trabajo de entrenamiento y ajuste de manera más eficiente.» – Articul8 AI.

Este anuncio está diseñado para administradores de clústeres de Kubernetes y científicos de ML, proporcionando una visión general de las características clave que SageMaker HyperPod introduce para facilitar el entrenamiento de modelos a gran escala en un clúster de EKS.

El anuncio se organiza en las siguientes secciones:

Visión general del soporte de Amazon EKS en SageMaker HyperPod: ofrece una visión general de alto nivel del soporte de Amazon EKS en SageMaker HyperPod, introduciendo tres características clave de resiliencia que la computación de HyperPod proporciona en el clúster de EKS. Asimismo, explica cómo HyperPod facilita la experiencia del desarrollador para administradores y científicos.

Configuración del clúster HyperPod y características de resiliencia de los nodos: proporciona una guía detallada sobre la integración de la computación gestionada por HyperPod en su clúster de EKS como nodos de trabajo de Kubernetes, destacando cómo sus características de resiliencia integradas proporcionan estabilidad en la infraestructura.

Resiliencia de trabajos de entrenamiento con la funcionalidad de auto-resume: se demuestra cómo los científicos pueden enviar y gestionar sus trabajos de entrenamiento distribuidos utilizando el CLI nativo de Kubernetes (kubectl) o el nuevo HyperPod CLI con recuperación automática de trabajos habilitada.

Con el soporte de Amazon EKS en SageMaker HyperPod, las empresas que han estandarizado sus flujos de trabajo de desarrollo de FM en Kubernetes pueden adoptar SageMaker HyperPod y gestionar sus recursos de clústeres utilizando una interfaz familiar en SageMaker HyperPod. Cuando se entrena un FM, SageMaker HyperPod monitoriza automáticamente la salud del clúster y, ante una falla de infraestructura como un fallo de GPU, SageMaker HyperPod remedia automáticamente el problema retomando el proceso de entrenamiento desde el último punto guardado, sin intervención humana. Amazon EKS mejora aún más esta capacidad ejecutando controles de salud profundos. Cada vez que se añade una instancia nueva a la computación de SageMaker HyperPod, se somete a un proceso de revisión de salud profundo para identificar y reemplazar instancias potencialmente problemáticas. SageMaker HyperPod reemplaza o reinicia automáticamente los nodos identificados como defectuosos y reanuda los procesos de entrenamiento ante interrupciones inesperadas, involucrando el reemplazo de nodos y la reenvío de trabajos.

Scroll al inicio