Optimiza el rendimiento de tu LLM con el nuevo contenedor de inferencia de modelos grandes de Amazon SageMaker v15

Elena Digital López

Hoy se ha anunciado con entusiasmo el lanzamiento de la nueva versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), una herramienta que promete revolucionar las capacidades de inferencia de modelos de lenguaje de gran tamaño (LLMs). Esta actualización está impulsada por la versión 0.8.4 de vLLM y cuenta con soporte para el motor vLLM V1. Entre sus principales novedades, se destaca la integración de los modelos de código abierto más recientes, como Llama 4 de Meta, Scout y Maverick, Gemma 3 de Google, Qwen de Alibaba, Mistral AI y DeepSeek-R, entre otros.

Amazon SageMaker AI sigue evolucionando para satisfacer la creciente demanda en rendimiento y compatibilidad con modelos fundamentales. La actualización incorpora mejoras significativas en el rendimiento, aumenta la compatibilidad con modelos multimodales, y proporciona una integración más fluida con vLLM para facilitar el despliegue de LLMs a gran escala.

Entre las características más destacadas de esta versión, se encuentra la introducción de un modo asíncrono que mejora el manejo de solicitudes al integrar directamente el motor AsyncLLMEngine de vLLM. Esta función crea un bucle de fondo más eficiente, permitiendo la gestión de múltiples solicitudes concurrentes y una transmisión de salidas con mayor rapidez en comparación con la versión 14.

El nuevo motor vLLM V1 ofrece hasta un 111% más de rendimiento en comparación con su predecesor para modelos más pequeños en situaciones de alta concurrencia. Esto es posible gracias a la reducción de la carga de la CPU, la optimización de los caminos de ejecución y un uso más eficiente de los recursos. Aunque la versión 15 de LMI admite ambos motores, el V1 es ahora el predeterminado, aunque se permite regresar al V0 de ser necesario a través de la configuración adecuada.

Adicionalmente, se ha ampliado el soporte de esquemas de API con tres opciones flexibles para lograr una integración fluida con aplicaciones que siguen patrones de API populares. También se incluyen optimizaciones para modelos de visión y lenguaje que integran un almacenamiento en caché multiplataforma.

La lista de modelos soportados en la versión 15 de LMI incluye múltiples opciones de última generación, como Llama 4 y Gemma 3, facilitando su despliegue mediante la especificación del ID del modelo correspondiente. El motor V1 ha demostrado un rendimiento mejorado en pruebas comparativas, con incrementos que van del 24% al 111% en diversos modelos.

La nueva versión del contenedor de Amazon SageMaker LMI representa un significativo avance en la inferencia de grandes modelos. Con el nuevo motor, el modo asíncrono y un soporte de modelos ampliado, los usuarios tienen a su disposición una herramienta de alto rendimiento y flexibilidad para el despliegue de modelos de inteligencia artificial generativa. Se invita a todos los interesados a explorar las posibilidades que ofrece este innovador lanzamiento.

Scroll al inicio