AWS lanza chips de IA de alto rendimiento y bajo costo para modelos Llama 3.1

Elena Digital López

Hoy se ha anunciado con entusiasmo el soporte de AWS Trainium y AWS Inferentia para el ajuste fino y la inferencia de los modelos Llama 3.1. La familia Llama 3.1 abarca modelos generativos pre-entrenados y ajustados bajo instrucción en tamaños de 8B, 70B y 405B. En una publicación anterior, se cubrió cómo desplegar los modelos Llama 3 en instancias basadas en AWS Trainium e Inferentia en Amazon SageMaker JumpStart. En esta ocasión, se detalla cómo empezar a ajustar y desplegar la familia de modelos Llama 3.1 en chips de IA de AWS, para aprovechar sus beneficios en términos de precio y rendimiento.

Los modelos Llama 3.1 son una colección de modelos multilingües grandes (LLMs) optimizados para el uso en diálogo multilingüe y superan a muchos modelos de chat públicos en benchmarks industriales. Han sido entrenados para generar llamadas a herramientas específicas para capacidades como búsqueda, generación de imágenes, ejecución de código y razonamiento matemático. El modelo Llama 3.1 405B es el LLM más grande disponible públicamente y es ideal para aplicaciones empresariales y de investigación y desarrollo.

Arquitectónicamente, los modelos Llama 3 y Llama 3.1 comparten la misma arquitectura densa de transformadores auto-regresivos, usando supervisión de afinado y aprendizaje por refuerzo con retroalimentación humana para alinearse con las preferencias humanas en términos de utilidad y seguridad.

Para empezar a trabajar con los modelos Llama 3.1 en AWS, se recomienda Amazon Bedrock, una API completamente gestionada que permite acceder fácilmente a estos potentes modelos. Para quienes necesiten un mayor control sobre los recursos subyacentes, SageMaker ofrece soporte para el ajuste fino y despliegue de estos modelos. AWS Trainium y AWS Inferentia2 están diseñados para proporcionar alto rendimiento y bajo costo en el entrenamiento y la inferencia de los modelos Llama 3.1.

Si se desea construir tuberías de aprendizaje automático propias para obtener mayor flexibilidad y control, se puede empezar con los modelos Llama 3.1 en los chips de IA de AWS usando las instancias Trn1 e Inf2 de Amazon EC2. Para el ajuste fino, se puede usar la biblioteca NeuronX Distributed, que ofrece implementaciones de técnicas populares de entrenamiento e inferencia distribuidos.

El despliegue de los modelos se puede realizar actualizando el ID del modelo en el código de muestra de Neuron. Por ejemplo, se puede desplegar el modelo en una instancia inf2.48xlarge. También es posible usar la biblioteca Optimum Neuron de Hugging Face para desplegar rápidamente los modelos directamente desde SageMaker.

En conclusión, AWS Trainium e Inferentia ofrecen alto rendimiento y bajo costo para el ajuste fino y despliegue de los modelos Llama 3.1, ayudando a construir aplicaciones de IA diferenciadas utilizando la infraestructura de IA construida específicamente con este propósito. Para más detalles sobre cómo empezar, se puede consultar la documentación de AWS Neuron.

Scroll al inicio