Compartir:
Las organizaciones que desarrollan aplicaciones de inteligencia artificial (IA) enfrentan un desafío significativo para evaluar efectivamente los resultados a lo largo del ciclo de vida de estas herramientas, especialmente aquellas que utilizan modelos de lenguaje de gran tamaño (LLMs) y sistemas de Generación Aumentada por Recuperación (RAG). A medida que estas tecnologías ganan aceptación y se vuelven más sofisticadas, garantizar una calidad y rendimiento consistentes se convierte en una tarea cada vez más compleja.
Los métodos tradicionales de evaluación de IA no han logrado resolver este reto de manera satisfactoria. La evaluación humana, aunque detallada, resulta costosa y lenta cuando se necesita escalar a grandes volúmenes. Las métricas automatizadas, por su parte, son rápidas y rentables, pero están limitadas a cuantificar la corrección de una respuesta de IA, sin poder captar otras dimensiones ni explicar las problemáticas de una respuesta determinada. Estas métricas dependen de datos de verdad objetiva, difíciles de establecer, especialmente en aplicaciones de IA que generan contenido abierto, como los sistemas RAG, donde no existe una única «respuesta correcta». Además, métricas como ROUGE y F1 pueden ser engañadas por similitudes lingüísticas superficiales, ignorando posibles diferencias significativas en el significado de las respuestas.
Frente a estos desafíos, Amazon Bedrock ha lanzado dos nuevas capacidades para mejorar la evaluación de estos sistemas: «LLM-as-a-judge» (LLMaaJ) y una herramienta para evaluar los RAG en las Bases de Conocimiento de Amazon Bedrock. Estas nuevas funciones combinan la rapidez de los métodos automatizados con una comprensión similar a la humana, permitiendo a las organizaciones evaluar de manera más integral múltiples aspectos del rendimiento de la IA.
Gracias a estas innovaciones, es posible evaluar modelos de IA en diferentes tareas, evaluar simultáneamente varias dimensiones de sus resultados y, específicamente, analizar de manera sistemática tanto la calidad de recuperación como la de generación de los sistemas RAG. Las evaluaciones pueden escalarse a miles de respuestas sin perder calidad, integrándose fluidamente en el ciclo de vida del desarrollo de la IA.
Este avance en la evaluación se centra en la funcionalidad RAG con las Bases de Conocimiento de Amazon Bedrock, proporcionando una guía para configurar y optimizar esta habilidad. Al final del proceso, se espera que los usuarios comprendan mejor cómo utilizar estas nuevas características para simplificar la garantía de calidad de las aplicaciones de IA, facilitando un desarrollo más eficiente y confiante de las mismas.