Acelera la inferencia de IA generativa con los microservicios NVIDIA NIM en Amazon SageMaker

Elena Digital López

En la conferencia NVIDIA GTC 2024, se anunció el soporte para los NVIDIA NIM Inference Microservices en Amazon SageMaker Inference. Esta integración permite desplegar los modelos de lenguaje grandes (LLMs) líderes en la industria en SageMaker y optimizar su rendimiento y costo. Los contenedores pre-optimizados permiten el despliegue de LLMs avanzados en minutos en lugar de días, facilitando su integración en aplicaciones de inteligencia artificial de nivel empresarial.

NIM está construido sobre tecnologías como NVIDIA TensorRT, NVIDIA TensorRT-LLM, y vLLM, y está diseñado para habilitar inferencias de IA de manera sencilla, segura y eficiente en instancias aceleradas por GPU de NVIDIA, alojadas en SageMaker. Esto permite que los desarrolladores aprovechen el poder de estos modelos avanzados usando las APIs de SageMaker con solo unas pocas líneas de código, acelerando el despliegue de capacidades de IA de vanguardia en sus aplicaciones.

NIM, parte de la plataforma de software NVIDIA AI Enterprise listada en AWS Marketplace, es un conjunto de microservicios de inferencia que llevan el poder de LLMs avanzados a tus aplicaciones, proporcionando capacidades de procesamiento y comprensión de lenguaje natural, ya sea desarrollando chatbots, resumiendo documentos o implementando otras aplicaciones potenciadas por NLP. Los contenedores preconstruidos de NVIDIA permiten alojar LLMs populares optimizados para GPUs específicas de NVIDIA para un despliegue rápido. Empresas como Amgen, A-Alpha Bio, Agilent, y Hippocratic AI están utilizando NVIDIA AI en AWS para acelerar la biología computacional, el análisis de genomas y la IA conversacional.

En esta guía, mostramos cómo los clientes pueden utilizar modelos de inteligencia artificial generativa y LLMs utilizando la integración de NVIDIA NIM con SageMaker. Demostramos cómo funciona esta integración y cómo se pueden desplegar estos modelos avanzados en SageMaker, optimizando su rendimiento y costo. Con contenedores pre-optimizados de NIM, se puede desplegar LLMs e integrarlos en aplicaciones de IA empresariales construidas con SageMaker en minutos. También compartimos un cuaderno de muestra que puedes utilizar para empezar, mostrando las simples APIs y unas pocas líneas de código necesarias para aprovechar las capacidades de estos modelos avanzados.

Comenzar con NIM es sencillo. Dentro del catálogo de APIs de NVIDIA, los desarrolladores tienen acceso a una amplia gama de modelos de IA optimizados con NIM que pueden utilizar para construir y desplegar sus propias aplicaciones de IA. Puedes comenzar a prototipar directamente en el catálogo utilizando la interfaz gráfica de usuario o interactuar directamente con la API.

Para desplegar NIM en SageMaker, necesitas descargar NIM y posteriormente desplegarlo. Puedes iniciar este proceso eligiendo «Run Anywhere with NIM» para el modelo de tu elección. Puedes registrarte para una licencia de evaluación gratuita de 90 días en el Catálogo de APIs proporcionando tu correo electrónico empresarial.

Como requisito previo, configura un entorno de Amazon SageMaker Studio. Asegúrate de que el dominio de SageMaker existente tenga acceso a Docker habilitado. Posteriormente, crea un perfil de usuario y un espacio JupyterLab para el perfil creado, e instala la CLI de Docker con un script bash.

En este ejemplo, utilizamos una instancia ml.g5.4xlarge, impulsada por una GPU NVIDIA A10G, comenzando con un cuaderno de muestra en SageMaker Studio JupyterLab. Importamos los paquetes correspondientes y configuramos la sesión de SageMaker, el rol y la información de cuenta. El contenedor de NIM, que incluye la integración con SageMaker, está disponible en la Amazon ECR Public Gallery, y se puede desplegar en tu propia cuenta de SageMaker de manera segura.

Los NIMs pueden accederse utilizando el catálogo de APIs de NVIDIA. Solo necesitas registrarte para una clave de API de NVIDIA en el catálogo NGC, y almacenarla en una variable de entorno. Luego, referencia el contenedor que subiste a Amazon ECR en un paso anterior, define la configuración del endpoint para el despliegue y crea el endpoint de SageMaker.

Una vez desplegado el endpoint, puedes realizar solicitudes al endpoint de SageMaker potenciado por NIM utilizando la API REST para probar diferentes preguntas y prompts e interactuar con los modelos de IA generativa. NIM se incluye en la licencia empresarial de NVIDIA, y viene con una licencia de evaluación de 90 días. Para usar NIM en SageMaker más allá de la licencia de 90 días, contacta con NVIDIA para precios privados en AWS Marketplace. NIM también está disponible como una oferta de pago como parte de la suscripción de software NVIDIA AI Enterprise.

Te animamos a explorar NIM para adaptarlo a tus propios casos de uso y aplicaciones.

Scroll al inicio