Implementación de aplicaciones generativas basadas en RAG en AWS con Amazon FSx para NetApp ONTAP y Amazon Bedrock

PUBLICADO EN Actualidad

X (Twitter) Facebook LinkedIn WhatsApp Telegram Pinterest

Las aplicaciones de inteligencia artificial generativa (IA generativa) se desarrollan comúnmente utilizando una técnica llamada Generación Aumentada por Recuperación (RAG). Este método permite que los modelos base (FMs) accedan a datos adicionales, que no estaban disponibles durante el entrenamiento. Estos datos se utilizan para enriquecer el contexto de las respuestas generadas por la IA, mejorando la precisión y transparencia sin necesidad de reentrenar continuamente el modelo, además de minimizar posibles errores.

En este artículo, se presenta una solución que utiliza Amazon FSx para NetApp ONTAP junto con Amazon Bedrock para proporcionar una experiencia RAG para aplicaciones de IA generativa en AWS. Se trae la información no estructurada específica de la empresa a Amazon Bedrock de manera rápida y segura. La solución emplea un sistema de archivos FSx for ONTAP como fuente de datos no estructurados y continuamente actualiza una base de datos vectorial Amazon OpenSearch Serverless con los archivos, carpetas y metadatos del usuario. Esto permite una capacidad RAG con Amazon Bedrock al enriquecer los prompts de la IA generativa utilizando APIs de Amazon Bedrock con datos específicos de la empresa recuperados de la base de datos vectorial de OpenSearch.

Uno de los desafíos en el desarrollo de aplicaciones de IA generativa, como un chatbot de preguntas y respuestas, es garantizar la seguridad de los datos y prevenir consultas a fuentes no autorizadas. La solución presentada también utiliza FSx for ONTAP para permitir a los usuarios extender sus mecanismos actuales de seguridad de datos y acceso para aumentar las respuestas de modelos en Amazon Bedrock. Utilizando FSx for ONTAP como la fuente de metadatos asociados, particularmente las configuraciones de la lista de control de acceso (ACL) de los usuarios, se demuestra cómo se puede garantizar que Amazon Bedrock solo utilice datos autorizados para usuarios específicos conectados a la aplicación de IA generativa.

Los servicios serverless de AWS facilitan el enfoque en la construcción de aplicaciones de IA generativa, proporcionando escalabilidad automática, alta disponibilidad incorporada y un modelo de facturación basado en el uso. La computación impulsada por eventos con AWS Lambda es adecuada para tareas intensivas en computación bajo demanda y la orquestación flexible de grandes modelos de lenguaje. Amazon API Gateway ofrece una interfaz API que permite frentes enchufables e invocación por eventos de los modelos.

La solución admite un sistema de archivos FSx for ONTAP Multi-AZ con una máquina virtual de almacenamiento (SVM) vinculada a un dominio AWS Managed Microsoft AD. Se utiliza una colección de búsqueda vectorial en OpenSearch Serverless que proporciona capacidad de búsqueda similar de alta performance. La solución también incluye el uso de servidores Amazon Elastic Compute Cloud (Amazon EC2) para gestionar el acceso al almacenamiento y las ACLs. El componente de contenedor de embeddings migra de manera periódica archivos y carpetas existentes con sus configuraciones de ACL de seguridad a OpenSearch Serverless. La función Lambda para recuperación RAG enriquece los prompts de IA generativa usando APIs de Amazon Bedrock con los datos específicos de la empresa y metadatos asociados, recuperados del índice OpenSearch Serverless.

Los usuarios interactúan con la solución enviando un prompt en lenguaje natural a través de una aplicación de chatbot o directamente a través de la interfaz de API Gateway. La aplicación de chatbot está construida usando Streamlit y gestionada por un AWS Application Load Balancer (ALB). Se demuestran accesos basados en permisos utilizando ACLs de Windows configuradas para cada documento.

Para implementar esta solución, se debe clonar el repositorio disponible en GitHub y usar la plantilla Terraform para provisionar todos los componentes con sus configuraciones. El proceso completo puede tardar de 15 a 20 minutos y se puede realizar siguiendo los pasos indicados.

Finalmente, para evitar cargos adicionales, es recomendable limpiar la cuenta AWS una vez finalizadas las pruebas, eliminando la plantilla Terraform.

En resumen, esta solución con FSx for ONTAP y Amazon Bedrock permite construir aplicaciones de IA generativa que responden de manera precisa y segura usando datos específicos de la empresa. Los servicios serverless de AWS facilitan la escalabilidad automática y el cómputo impulsado por eventos, brindando una infraestructura robusta para aplicaciones de IA generativa.