Compartir:
En el marco del evento AWS re:Invent 2024, Amazon Web Services ha anunciado la incorporación de una innovadora funcionalidad para Amazon SageMaker conocida como Container Caching. Esta nueva herramienta ha sido diseñada con el objetivo de mejorar el rendimiento del escalado de modelos de inteligencia artificial generativa durante el proceso de inferencia. El avance responde a la creciente complejidad y el tamaño significativo de los modelos de IA y los contenedores que los contienen, lo que en el pasado ha planteado un desafío considerable en términos de eficiencia de despliegue y escalado.
Container Caching promete una disminución notable en el tiempo de latencia asociado con el escalado de estos modelos. Según AWS, se proyecta una reducción de hasta un 56% en la latencia al escalar una copia de un modelo ya existente. Asimismo, se anticipa una disminución del 30% en la latencia al añadir un modelo a una nueva instancia. Estos beneficios se extienden a una amplia gama de contenedores de aprendizaje profundo proporcionados por SageMaker, incluidos los de Inferencia de Modelos Grandes (LMI), PyTorch, NVIDIA Triton, y Hugging Face TGI.
La optimización de los tiempos de inicio de los contenedores reviste gran importancia para asegurar que los usuarios finales no experimenten problemas durante incrementos en la demanda de inferencia. Anteriormente, el tiempo necesario para descargar imágenes de contenedores desde Amazon Elastic Container Registry podía demorar varios minutos, lo que resultaba inaceptable durante picos de tráfico. La introducción de la función de pre-almacenamiento en caché de contenedores mitiga la necesidad de estas descargas, permitiendo tiempos de escalado más rápidos en situaciones de alta demanda y mejorando la utilización de los recursos computacionales, incluidos los recursos de GPU, que son costosos y limitados.
Las pruebas realizadas confirman que esta innovación ofrece mejoras considerables y consistentes. Por ejemplo, al desplegar el modelo Llama3.1 70B, los tiempos de escalado globales se redujeron de 379 segundos (6.32 minutos) a 166 segundos (2.77 minutos), una mejora del 56%. Este avance facilita la gestión de picos de tráfico de manera más eficaz y predecible, reduciendo la latencia percibida por el usuario final en la infraestructura de aprendizaje automático de AWS.
Container Caching se habilita de manera automática para los Contenedores de Carga Profunda (DLCs) soportados por SageMaker, garantizando que los usuarios accedan rápidamente a los entornos más actualizados y optimizados para sus modelos. Esto no solo acelera el proceso de escalado, sino que también implica una potencial reducción de costos gracias a la disminución del tiempo de inactividad y la utilización más eficiente de los recursos. Con esta mejora, AWS reafirma su posición de liderazgo en el soporte a tareas de inferencia de IA generativa, haciendo más accesible y eficiente su implementación bajo la infraestructura de SageMaker.