Indexa contenidos del sitio web usando el conector Amazon Q Web Crawler para Amazon Q Business

Elena Digital López

Amazon ha lanzado un nuevo servicio denominado Amazon Q Business, permitiendo a las empresas crear aplicaciones de chat interactivas utilizando datos empresariales. Este servicio administrado puede generar respuestas basadas en los datos proporcionados o en un modelo de lenguaje extenso (LLM). Es importante destacar que los datos del usuario no se emplean para entrenamiento, y las respuestas se generan únicamente con la información disponible para los usuarios.

La información empresarial suele estar distribuida en diferentes fuentes, como documentos en Amazon Simple Storage Service (Amazon S3), motores de bases de datos y sitios web. La iniciativa de Amazon incluye la creación de una aplicación de Amazon Q Business y la indexación de contenido web utilizando el conector Amazon Q Web Crawler.

En los ejemplos presentados, se han utilizado dos fuentes de datos: una guía de incorporación de empleados de una empresa ficticia que requiere autenticación básica, y la documentación oficial de Amazon Q Business. También se han mostrado configuraciones avanzadas para que el Web Crawler indexe solamente páginas y enlaces relevantes, ignorando otros servicios de AWS.

El conector Amazon Q Web Crawler permite rastrear sitios web que utilicen HTTPS e indexar su contenido para crear experiencias de inteligencia artificial generativa. Este conector usa el paquete Selenium Web Crawler y un controlador Chromium, actualizándose automáticamente sin intervención del usuario. Asimismo, puede rastrear e indexar el contenido de páginas web y adjuntos, permitiendo configurar atributos personalizados para mejorar los resultados de búsqueda según la relevancia de los documentos.

Para configurar las fuentes de datos, es posible utilizar URLs o sitemaps, definir el acceso seguro a sitios web protegidos y especificar cómo y qué datos se sincronizan con Amazon Q Business. El proceso implica la creación y configuración de una aplicación, fuentes de datos y usuarios a través del Identity Center de IAM.

Este nuevo servicio abre una gama de posibilidades para utilizar inteligencia artificial generativa en las empresas, agilizando la integración y el acceso a la información distribuida en diversas plataformas digitales.

Scroll al inicio