Marco de evaluación de precisión para el negocio Q de Amazon

Elena Digital López

La inteligencia artificial generativa (IA), en particular las soluciones de Recuperación Aumentada por Generación (RAG por sus siglas en inglés), están demostrando rápidamente su vasto potencial para revolucionar las operaciones empresariales. Los modelos RAG combinan las fortalezas de los sistemas de recuperación de información con la generación avanzada de lenguaje natural, lo que permite obtener resultados más precisos y contextualmente informativos. Desde la automatización de interacciones con clientes hasta la optimización de procesos operativos backend, estas tecnologías no solo están apoyando a los negocios, sino que los están transformando activamente.

Hasta ahora, las empresas pueden pasar horas decidiendo qué solución RAG es la más adecuada para sus necesidades, una decisión difícil debido a los muchos elementos a considerar. Este proceso de evaluación también necesita realizarse periódicamente debido a la rápida evolución de la tecnología RAG, lo cual limita aún más la celeridad con la que las empresas pueden ofrecer experiencias transformadoras de IA generativa a sus plantillas. Ahora disponible para todos los usuarios, Amazon Q Business es un asistente de IA generativa que empodera a los empleados con el conocimiento y los datos propios de la compañía, y puede simplificar significativamente los esfuerzos de construcción de aplicaciones de IA generativa. Proporciona un enfoque RAG completamente gestionado, para que pueda construir su solución de chatbot AI generativa rápidamente sin tener que gestionar y experimentar con modelos de lenguaje grandes (LLM).

Aunque Amazon Q Business puede reducir el tiempo de desarrollo de aplicaciones de IA generativa de meses a horas, puede que desee evaluar los resultados de Amazon Q Business contra criterios de evaluación predefinidos, tales como la precisión o la solidez, para medir el desempeño de su aplicación en términos cuantitativos. Con el bien definido marco de evaluación explicado en este artículo, puede usar su fuente de datos privada de la empresa y su experto en la materia para evaluar el desempeño de la aplicación de IA generativa para su caso de uso, especialmente para consultas que requieran conocimiento especializado del dominio único de su empresa. Este método asegura que los resultados de Amazon Q no solo sean relevantes sino también adaptados a las particularidades y requisitos específicos de su empresa.

En este artículo, presentamos un marco para ayudarle a evaluar Amazon Q Business de manera eficiente y proporcionamos una plantilla de métricas detallada. El flujo de trabajo y la arquitectura final pueden ayudarte a estandarizar su evaluación y realizar su propia evaluación de Amazon Q Business con facilidad.

Hay dos métodos distintos de evaluación para soluciones de IA generativa. El primer enfoque es una evaluación automatizada usando medidas cuantitativas. Para una solución RAG, Ragas es un marco popular que utiliza un LLM como juez para generar puntuaciones de métricas de evaluación y facilitar la evaluación automatizada. Sin embargo, la evaluación automatizada presenta ciertas limitaciones, especialmente para soluciones RAG que usan datos propietarios específicos de la empresa. Estas métricas a menudo no logran capturar la completa complejidad de la generación de lenguaje parecido al humano, careciendo de la capacidad de evaluar la comprensión semántica y los matices contextuales únicos de un dominio específico. Por ejemplo, en la generación de documentos legales, informes médicos, análisis financieros, respuestas de soporte al cliente y documentación técnica, los párrafos generados serán medidos por detalles críticos como la precisión legal, la relevancia médica, el cumplimiento normativo, los matices del servicio al cliente y la corrección técnica. Además, dichas métricas automatizadas no se alinean bien con el juicio cualitativo humano, que es crucial cuando la evaluación debe considerar los detalles intrincados y el conocimiento especializado inherentes a los datos empresariales. Esta brecha subraya la necesidad de involucrar a expertos en el dominio específico en el proceso de evaluación para asegurarse de que los resultados satisfacen las demandas matizadas de las aplicaciones empresariales.

El segundo enfoque es una evaluación con un humano en el bucle (HITL por sus siglas en inglés). Este método es más adecuado para tareas que requieren una comprensión profunda del dominio, ya que los humanos pueden comprender mejor el contexto, los matices y las sutilezas que las métricas automatizadas. Más importante aún, pueden proporcionar retroalimentación para mejorar, de modo que las soluciones de IA generativa, como Amazon Q Business, pueden evolucionar con la retroalimentación detallada utilizando diferentes enfoques de mejora integrados. Por último, la evaluación HITL puede aportar evaluaciones cualitativas y juicio humano que las métricas automatizadas carecen. Aunque una evaluación HITL puede ser costosa y consumir muchos recursos, sigue siendo un enfoque adecuado para su aplicación Amazon Q Business, alineándose con la demanda de los usuarios finales de una comprensión profunda del conocimiento del dominio.

En este artículo, discutimos las métricas de evaluación para Amazon Q Business, incluyendo varios aspectos que son particularmente importantes para un chatbot RAG, como la robustez y la completitud semántica. Usted puede decidir sobre su umbral de puntuación de métricas de evaluación utilizando ya sea una evaluación automatizada o una evaluación HITL.

Amazon Q Business ofrece soluciones diseñadas para abordar casos de uso comunes en las empresas, lo que puede simplificar significativamente el inicio de su viaje de IA generativa. Identificar el caso de uso adecuado para Amazon Q Business es fundamental, y existen varias personas recomendadas donde puede agregar valor inmediato: atención al cliente/soporte IT, riesgo y cumplimiento, desarrolladores, recursos humanos y operaciones

Para una aplicación de chatbot de IA generativa en un entorno empresarial, la inclusión de varios tipos de documentos puede mejorar su utilidad y efectividad. Algunos tipos de documentos clave que pueden beneficiar a una aplicación de IA generativa incluyen: procedimientos operativos estándares, manuales y guías de productos, preguntas frecuentes y artículos de ayuda, documentos de políticas, materiales de capacitación, contratos y acuerdos, minutas y reportes de reuniones, correos electrónicos y comunicaciones, y documentos financieros.

Dichos documentos pueden ser identificados en los sistemas de gestión de documentos existentes de su empresa, en los buckets de Amazon S3, en sistemas de gestión de relaciones con clientes (CRM), herramientas de desarrollo y planificación de proyectos IT, sitios web empresariales y herramientas de colaboración. Escoger la fuente de datos correcta implica considerar el propósito de la aplicación de IA generativa, la sensibilidad de los datos involucrados y las integraciones requeridas para acceder y usar estos datos de manera segura y efectiva. Amazon Q Business dispone de conectores existentes o soluciones listas para implementar que permite ingresar datos empresariales a Amazon Q de manera segura y sin complicaciones.

Para evaluar una solución de IA generativa usando RAG, es importante diseñar consultas de evaluación que puedan usar un enfoque RAG para el descubrimiento y análisis del conocimiento. Los tipos de consultas pueden incluir desde preguntas simples de precisión fáctica hasta preguntas complejas que requieren inferencia en capas y la sensibilidad a dilemas éticos.

Para un marco de evaluación comprensivo de una solución de IA generativa basada en RAG como Amazon Q Business, puede utilizarse una variedad de métricas que evalúen diferentes aspectos del rendimiento del modelo. Algunas de estas métricas incluyen: completitud y concisión de la respuesta, veracidad, robustez semántica, relevancia del contexto, precisión del contexto y toxicidad.

Después de que LLM complete su evaluación, se compilan y resumen los resultados calculando la puntuación promedio para cada métrica. Utilizar una puntuación promedio ofrece varios beneficios: identificar fortalezas y debilidades, generar confianza y seguridad en los usuarios, y facilitar la toma de decisiones para la implementación.

Para operacionalizar el marco de evaluación y garantizar su funcionamiento constante, se necesita un buen diseño de la arquitectura de la solución. Un ejemplo de arquitectura incluye el uso de servicios AWS como AWS Batch, Amazon DynamoDB y AWS Lambda para gestionar el flujo de evaluación.

Luego de recibir los resultados de evaluación, si ciertas métricas están por debajo del desempeño esperado, se pueden hacer mejoras a las áreas necesarias, ya sea mejorando los mecanismos de recuperación, aumentando la eficiencia de comandos, refinando y limpiando los datos de entrada, o promoviendo la relevancia de los documentos contextuales. Estas mejoras asegurarán la calidad y relevancia de las soluciones de IA generativa de Amazon Q Business.

En conclusión, el artículo se centró en cómo desarrollar un marco de evaluación para Amazon Q Business, comenzando con la selección de un caso de uso, preparando datos y utilizando métricas específicas para un enfoque de evaluación humano en el bucle. También se proporcionó una arquitectura de solución para escalar la evaluación de manera consistente. Use Amazon Q Business para crear una solución RAG de IA generativa totalmente gestionada, adaptada a sus necesidades, y empiece su viaje de transformación empresarial con la guía y arquitectura presentadas en este artículo.

Scroll al inicio