Automatización de Inferencia por Lotes en Amazon Bedrock: Diseñando una Canalización Escalable y Eficiente

Elena Digital López

Amazon ha introducido un nuevo servicio llamado Amazon Bedrock, diseñado para facilitar la integración de modelos de inteligencia artificial de alto rendimiento de varias empresas líderes del sector como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI, y la propia Amazon. Esta plataforma, a través de una única API, ofrece a los usuarios la capacidad de acceder a diversos modelos avanzados, permitiendo el desarrollo de aplicaciones de inteligencia artificial generativa con un especial enfoque en la seguridad, la privacidad y la responsabilidad.

Una de las características más notables de Amazon Bedrock es su función de inferencia por lotes, la cual permite el procesamiento eficiente de grandes volúmenes de datos cuando no se requiere obtener resultados en tiempo real. Esto la convierte en una herramienta ideal para tareas que no precisan de baja latencia, como la obtención de embeddings, la extracción de entidades, evaluaciones de modelos, y categorización y resumen de textos para informes empresariales. Además, este tipo de inferencia es económicamente ventajosa, pues ofrece un ahorro del 50% en comparación con el precio bajo demanda.

Sin embargo, la inferencia por lotes en Amazon Bedrock tiene una limitación inicial de 10 trabajos de inferencia por lotes por modelo y por región. Para superar esta restricción, Amazon ha implementado una solución escalable utilizando AWS Lambda y Amazon DynamoDB. Esta arquitectura innovadora gestiona las colas de trabajo automatizando la supervisión de espacios disponibles y organizando el envío de nuevos trabajos cuando se liberan espacios.

El proceso inicia cuando el usuario carga archivos en un bucket de Amazon S3. Luego, AWS Lambda crea entradas de trabajo en una tabla DynamoDB con estado pendiente, aspecto crucial para el seguimiento y gestión de los trabajos de inferencia. Amazon EventBridge, a través de eventos programados, activa funciones de Lambda cada 15 minutos para procesar estos trabajos, actualizando los estados y calculando los espacios de trabajo disponibles para avanzar con los siguientes trabajos en cola.

La solución también ofrece capacidades para manejar situaciones de error, asegurando un registro exhaustivo que permita la resolución de problemas de manera eficiente. Al concluir cada trabajo, los resultados se almacenan en el bucket de S3, facilitando así su acceso y revisión.

Este enfoque no solo mejora la eficiencia técnica mediante la gestión automatizada de la cola de procesos, sino que también optimiza los costos, beneficiándose del significativo descuento para el procesamiento masivo. Amazon alienta a las empresas a adaptar esta solución según sus necesidades, lo que podría mejorar considerablemente los flujos de trabajo de inferencia y la gestión de tareas de IA generativa a gran escala. Gracias a Amazon Bedrock, las empresas están ahora mejor preparadas para cumplir con los exigentes requerimientos de procesamiento de datos de manera eficiente y rentable.

Scroll al inicio