Compartir:
Las organizaciones que están adoptando la inteligencia artificial generativa en sus operaciones ahora cuentan con nuevas herramientas para evaluar la eficacia y confiabilidad de sus sistemas, gracias a las recientes actualizaciones presentadas por Amazon en su conferencia AWS re:Invent 2024. En este evento se anticiparon las capacidades para evaluar modelos de lenguaje y aplicaciones de generación aumentada por recuperación, las cuales ya están disponibles en fase general, con significativas mejoras para adaptarse a cualquier entorno operativo.
La piedra angular de estas mejoras es la introducción de la funcionalidad «bring your own inference responses» (BYOI), que permite a las empresas evaluar sus sistemas RAG (Generación Aumentada por Recuperación) o modelos de inteligencia artificial, independientemente de si se ejecutan en Amazon Bedrock, en otras plataformas en la nube, o incluso localmente. Siempre y cuando se proporcionen los datos en el formato específico requerido, la evaluación es posible, lo que ofrece una flexibilidad sin precedentes para los desarrolladores y usuarios.
Entre las novedades más destacadas están las nuevas métricas de citación, que enriquecen el conjunto de herramientas disponibles para evaluar la precisión y cobertura de citación de los sistemas RAG. Estas métricas son cruciales para entender y mejorar cómo un sistema utiliza la información recuperada, identificando y corrigiendo el uso de citaciones innecesarias o fuera de contexto.
Estas innovaciones están diseñadas para que los equipos técnicos optimicen notoriamente el desempeño de sus sistemas y promuevan estándares de calidad elevados en sus proyectos de IA generativa. Con la capacidad de evaluar salidas de sistemas RAG alojados en diversas plataformas, Amazon Bedrock se perfila como una solución versátil para el análisis y mejora continua de modelos de inteligencia artificial, permitiendo así comparaciones de desempeño y la elaboración de estrategias basadas en datos precisos.
Además, el formato de entrada para las evaluaciones ha sido actualizado para incluir identificadores de bases de conocimiento y nuevos campos de metadatos, enriqueciendo así el contexto y precisión de las herramientas de evaluación. Esta ampliación de funciones busca no solo mejorar la calidad de las salidas sino también facilitar a las empresas el monitoreo constante y la mejora de sus modelos IA generativos, asegurando que las soluciones ofrecidas sean eficaces y de alta calidad para los diversos casos de uso específicos que se presentan en distintos sectores.