Compartir:
El mercado del procesamiento inteligente de documentos (IDP) está experimentando un crecimiento impresionante, previéndose que su valor aumente de $1,285 millones en 2022 a $7,874 millones para 2028. Este auge refleja la creciente demanda por soluciones que permitan la extracción de contenido multilingüe y la generación de insights a partir de documentos no estructurados, tales como imágenes, formularios y recibos.
Las empresas multinacionales, que a menudo reciben documentos en idiomas como árabe, chino, ruso o hindi, se enfrentan al desafío de procesar esta diversidad lingüística. Este reto no está plenamente cubierto por las actuales soluciones de software de extracción documental. Para solucionar estas limitaciones idiomáticas, los modelos Claude de Anthropic, desplegados en Amazon Bedrock, brindan una propuesta robusta. Estos modelos de lenguaje a gran escala, entrenados con una vasta colección de datos provenientes de diversas fuentes y lenguas, permiten comprender y generar texto de calidad humana en múltiples idiomas.
No obstante, el manejo de documentos complejos y de contenido sensible requiere consistencia, precisión y cumplimiento normativo, lo que a menudo exige la supervisión humana. En este sentido, Amazon Augmented AI (A2I) se convierte en una herramienta esencial, facilitando la creación de flujos de trabajo para la revisión humana y gestionando la carga de trabajo asociada con el desarrollo y supervisión de estos sistemas.
La integración de Amazon A2I con los modelos Claude de Anthropic en Amazon Bedrock permite la construcción de una cadena de procesamiento de documentos multilingües robusta, que mejora la precisión y la calidad de la información extraída. Esta solución incorpora el modelado de inteligencia artificial generativa, la orquestación serverless gestionada por Amazon Step Functions y la inteligencia humana aumentada por Amazon A2I. Los pasos clave incluyen el almacenamiento de documentos en distintos idiomas, la invocación de un flujo de procesamiento para extraer datos conforme a un esquema predeterminado, la validación de dicha información por revisores humanos y la conversión del contenido validado a un formato Excel para su posterior uso.
Este marco tiene el potencial de expandirse para analizar contenidos en una base de conocimiento, indexar la información extraída y crear una herramienta de descubrimiento de conocimiento que permita consultar datos y extraer insights relevantes. Para ello, se utilizan modelos de lenguaje multimodal integrados que facilitan la extracción de datos de documentos multilingües. La arquitectura emplea el marco Rhubarb de Python, que asiste en las tareas de comprensión de documentos mediante modelos de lenguaje multimodal de Amazon Bedrock.
En un mundo cada vez más globalizado, donde las empresas buscan maximizar el valor de sus datos, estas soluciones avanzadas ofrecen una ventaja competitiva, mejorando la capacidad para gestionar documentos en diversos idiomas y asegurando que los insights extraídos sean válidos y útiles. Esto, a su vez, genera un impacto significativo en la eficiencia operativa y en la toma de decisiones empresariales.