Compartir:
El uso de preguntas y respuestas (Q&A) utilizando documentos es una aplicación común en diversos campos como chatbots de soporte al cliente, asistentes de investigación legal y asesores de salud. La Generación Aumentada por Recuperación (RAG) ha surgido como un método líder para utilizar el poder de los modelos de lenguaje de gran tamaño (LLMs) para interactuar con documentos en lenguaje natural.
Este artículo ofrece una visión general de una solución personalizada desarrollada por el AWS Generative AI Innovation Center (GenAIIC) para Deltek, una empresa reconocida enfocalizada en negocios basados en proyectos tanto en contratos gubernamentales como en servicios profesionales. Deltek presta servicios a más de 30,000 clientes con soluciones de software e información específicas de la industria.
En esta colaboración, el equipo de AWS GenAIIC creó una solución basada en RAG para Deltek que permite la Q&A en documentos de licitaciones gubernamentales individuales y múltiples. La solución utiliza servicios de AWS, incluidos Amazon Textract, Amazon OpenSearch Service y Amazon Bedrock. Amazon Bedrock es un servicio totalmente gestionado que ofrece una selección de modelos fundacionales (FMs) y LLMs de alto rendimiento de empresas líderes en inteligencia artificial.
Deltek trabaja continuamente para mejorar esta solución y alinearla mejor con sus requisitos específicos, como el soporte para formatos de archivo más allá del PDF y la implementación de enfoques más rentables para su canal de ingestión de datos.
La RAG optimiza la salida de los LLMs al permitirles referenciar bases de conocimiento autorizadas fuera de sus fuentes de datos de entrenamiento antes de generar una respuesta. Esta aproximación aborda algunos de los desafíos asociados con los LLMs, como la presentación de información falsa, desactualizada o genérica, y la creación de respuestas inexactas debido a la confusión terminológica.
Aplicar RAG para la Q&A en un solo documento es sencillo, pero aplicarlo en múltiples documentos relacionados presenta desafíos únicos, especialmente cuando los documentos evolucionan con el tiempo. El orden cronológico debe considerarse cuando una pregunta se refiere a un concepto que ha evolucionado.
El proceso desarrollado por AWS y Deltek consta de dos pasos principales: la ingestión de datos y la Q&A. En el primer paso, se procesan los documentos PDF para extraer texto y tablas utilizando Amazon Textract. Luego, los fragmentos de texto se indexan en OpenSearch Service utilizando un modelo de incrustaciones de texto.
En el segundo paso, los usuarios pueden hacer preguntas sobre los documentos y recibir respuestas en lenguaje natural. El sistema utiliza Amazon Bedrock para generar una respuesta después de realizar una búsqueda semántica para encontrar fragmentos de texto relevantes.
El uso de Amazon Textract permite convertir archivos PDF, PNG, JPEG y TIFF en texto legible por máquina. OpenSearch permite indexar y recuperar eficientemente grandes volúmenes de datos usando una estructura de base de datos vectorial. El sistema utiliza modelos de incrustaciones de texto que mapean palabras o frases a representaciones vectoriales densas para realizar búsquedas semánticas.
En un caso de uso específico, se lleva a cabo la Q&A sobre un borrador de solicitud de propuestas (RFP) y una respuesta a una solicitud de información (RFI), proporcionando información adicional y revisada. Amazon Textract convierte los documentos en texto, que luego se divide en fragmentos y se procesa para extraer incrustaciones vectoriales. Estos fragmentos se almacenan en una base de datos OpenSearch con metadatos como el nombre de la sección y la fecha de publicación del documento.
Durante la fase de Q&A, se realiza una búsqueda semántica para encontrar fragmentos de texto relevantes y se crea un contexto que se utiliza para generar una respuesta en lenguaje natural utilizando Amazon Bedrock. Este enfoque garantiza que las respuestas sean precisas y contextualmente relevantes, teniendo en cuenta la evolución cronológica de la información en los documentos.
En conclusión, la solución propuesta permite la Q&A eficiente en documentos complejos y extensos, mejorando la precisión y relevancia de las respuestas generadas por los LLMs. La colaboración entre AWS y Deltek demuestra cómo la tecnología de inteligencia artificial puede optimizar la revisión de documentos complejos y sus iteraciones, proporcionando un valor significativo para las empresas basadas en proyectos. Deltek continúa refinando esta solución para satisfacer mejor sus necesidades y explorar nuevas eficiencias en la ingestión de datos.