Desarrolla web crawling en bases de conocimiento para Amazon Bedrock

Elena Digital López

Amazon ha lanzado su nuevo servicio gestionado, Amazon Bedrock, diseñado para facilitar el acceso a modelos de inteligencia artificial (IA) de alta performance de empresas líderes en el sector, como AI21 Labs, Anthropic, Cohere, Meta, Stability AI y la propia Amazon. Mediante una única API, las empresas pueden crear aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.

Amazon Bedrock permite a los usuarios experimentar y evaluar diversos modelos fundamentales (FMs) para diferentes casos de uso. Una de sus características más destacadas es la capacidad de personalizar estos modelos con datos empresariales mediante técnicas como la generación aumentada por recuperación (RAG). Además, ofrece la posibilidad de construir agentes que ejecutan tareas utilizando los sistemas y fuentes de datos de la empresa.

Entre las herramientas más innovadoras incluidas en Amazon Bedrock, figura Knowledge Bases, que permite agregar datos de múltiples fuentes en un repositorio de información. Esto facilita la creación de aplicaciones que aprovechan la técnica RAG de manera eficiente, ayudando a mantener la información al día y relevante para diversas aplicaciones de IA.

Para los usuarios interesados en expandir la capacidad de indexar sus sitios web públicos, Amazon Bedrock ofrece una función de rastreo web. El conector web integrado comienza con URLs semilla y recorre enlaces hijos dentro del mismo dominio, indexando contenidos, incluidos archivos PDF, textos, y archivos CSV.

La configuración del rastreo puede adaptarse para incluir o excluir ciertos patrones de URLs, aplicando filtros mediante expresiones regulares. También es posible ajustar la velocidad de rastreo para controlar el tiempo de sincronización.

El proceso de creación de una base de conocimientos con rastreador web tiene varios pasos clave, desde la configuración de URLs de origen hasta la selección del modelo de incrustación y la creación de una base de datos vectorial. Una vez configurada, los datos pueden monitorearse mediante Amazon CloudWatch para asegurar la precisión y efectividad del rastreo.

Amazon Bedrock también ofrece la posibilidad de gestionar estos procesos a través de su SDK para Python (Boto3), facilitando la automatización y el despliegue programático de bases de conocimiento y rastreadores web.

Los usuarios pueden seguir las instrucciones de configuración detalladas en la consola de Amazon Bedrock y aprovechar la opción de «Creación rápida de almacén vectorial» para simplificar el proceso de implementación.

Además de sus capacidades técnicas, Amazon Bedrock incluye robustas funciones de supervisión y gestión de permisos, asegurando el cumplimiento de la política de uso aceptable de Amazon y respetando los archivos robots.txt de los sitios web.

Este servicio, por tanto, no solo mejora la generación de aplicaciones de IA con datos precisos y actualizados, sino que también simplifica la integración y gestión de múltiples fuentes de información de manera segura y eficiente.

Scroll al inicio