Comunícate con tu Audiencia: Modelos Multimodales en Amazon Bedrock – Parte 3

Elena Digital López

Amazon Web Services (AWS) ha dado un paso adelante en la innovación de la gestión de datos multimodales al presentar dos enfoques novedosos para extraer información de texto, imágenes y gráficos. Estos métodos, diseñados para optimizar el procesamiento de presentaciones, prometen cambiar la manera en que los usuarios interactúan con sus datos visuales.

En la primera entrega de esta serie, AWS exploró el método denominado «embed primero, inferir después». Este enfoque emplea el modelo de Embeddings Multimodales de Amazon Titan para transformar las diapositivas de presentaciones en embeddings vectoriales almacenados en una base de datos especializada. A partir de ahí, el asistente LLaVA 1.5-7b se encarga de formular respuestas textuales a las consultas de los usuarios, utilizando para ello las diapositivas más pertinentes recuperadas de la base de datos vectorial.

El enfoque alternativo examinado en la segunda parte de esta serie lleva por nombre «inferir primero, embed después». Utilizando el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock, este método primero genera descripciones textuales detalladas de cada diapositiva. Posteriormente, estas descripciones se convierten en embeddings textuales que se almacenan para facilitar respuestas más contextuales y precisas a las preguntas de los usuarios.

Ambos métodos fueron evaluados con el dataset SlideVQA, un recurso reconocido de preguntas y respuestas visuales sobre presentaciones. Los resultados obtenidos reflejaron una precisión del 50% o menos, demostrando el desafío inherente en la interpretación y extracción de información a partir de datos multimodales complejos.

Un factor a considerar es el costo asociado con cada enfoque. La metodología de «embed primero, inferir después» tiene un costo de $0.00224 por pregunta procesada, mientras que «inferir primero, embed después» implica un costo significativamente mayor de $0.02108. Estos valores destacan la importancia de elegir el enfoque adecuado, tomando en cuenta tanto la naturaleza del dataset como las restricciones presupuestarias.

La comparativa entre estos dos métodos enfatiza la necesidad de ajustes personalizados para maximizar la eficiencia y precisión de la recuperación de datos. AWS sugiere considerar búsquedas híbridas y la aplicación de filtros como medios para refinanciar los resultados obtenidos.

Con el código de ambos enfoques disponible en GitHub, AWS anima a los usuarios a experimentar y determinar cuál de los métodos se alinea mejor con sus necesidades específicas. En un mundo donde la inteligencia artificial generativa evoluciona rápidamente, AWS continúa buscando maneras de optimizar las técnicas para mejorar la investigación y extracción de datos multimodales.

Scroll al inicio