Desarrollo de Plataforma de Procesamiento de Documentos con IA Utilizando Modelo NER Abierto y LLM en Amazon SageMaker

Elena Digital López

Un laboratorio nacional en Estados Unidos ha revolucionado la forma en que se gestionan y acceden los documentos históricos en sus archivos, con el lanzamiento de una plataforma de procesamiento de documentos impulsada por inteligencia artificial. La acumulación de conocimiento en estas instituciones es vasta, pero la falta de metadatos y etiquetado adecuado ha relegado gran parte de esta información a la oscuridad. Los métodos tradicionales de búsqueda, basados en palabras clave, no logran satisfacer las necesidades de los investigadores, que a menudo deben recurrir a procesos manuales tediosos para hallar datos valiosos.

Para mitigar estos desafíos, el laboratorio ha adoptado una innovadora plataforma que combina tecnologías avanzadas como el reconocimiento de entidades nombradas (NER) y modelos de lenguaje a gran escala utilizando Amazon SageMaker. Esta solución contemporánea automatiza tareas críticas como el enriquecimiento de metadatos y la clasificación de documentos, además de generar resúmenes más accesibles de los mismos. Con el modelo Mixtral-8x7B para resúmenes y un modelo basado en BERT para la extracción de metadatos, la plataforma ha mejorado drásticamente la organización y recuperación de documentos escaneados.

La plataforma ha sido diseñada con arquitectura sin servidor y optimización de costos en mente, utilizando endpoints de SageMaker de manera dinámica para asegurar un uso eficiente y escalable de los recursos. Al integrar modernas tecnologías de procesamiento del lenguaje natural y modelos de lenguaje de gran escala, la precisión en la creación de metadatos ha incrementado, permitiendo búsquedas más efectivas y una gestión documental más eficiente. Este enfoque apoya no solo la transformación digital, sino que también asegura que los datos archivados sean eficientemente utilizados en investigaciones y en la creación de políticas mientras se mantiene el conocimiento institucional.

La solución, nombrada NER & LLM Gen AI Application, encapsula las ventajas del NER y los LLM para simplificar el análisis de documentos masivos. Su enfoque modular le permite manejar múltiples aspectos del procesamiento documental, desde la producción de resúmenes hasta la identificación de autores. Actúa de manera proactiva al detectar documentos en el bucket de extracciones, evitando redundancias mediante la creación estratégica de endpoints de modelos y procesando documentos en lotes para optimizar el rendimiento.

Además de su capacidad tecnológica, esta nueva solución destaca por su eficiencia: puede procesar hasta 100,000 documentos en solo 12 horas, demostrando ser tanto económica como efectiva en términos de rendimiento. La generación de resúmenes extractivos como el primer paso reduce la carga de trabajo manual en un 75-90%, permitiendo un procesamiento más ágil y reduciendo los costos operativos. Esta plataforma responde así a la imperante necesidad de un procesamiento documental más inteligente y eficiente, especialmente en el ámbito de la investigación y la gestión del conocimiento.

Scroll al inicio