Compartir:
En el entorno empresarial actual, donde la computación en la nube juega un papel crucial, las organizaciones a menudo enfrentan el reto de tener sus datos esparcidos a través de múltiples plataformas y sistemas locales. Esta dispersión hace que consolidar y analizar datos para iniciativas de aprendizaje automático sea complicado. Sin embargo, recientemente se ha presentado una solución arquitectónica innovadora que aborda este problema al permitir la extracción de datos desde diferentes entornos sin necesidad de trasladarlos físicamente, reduciendo así la complejidad y el costo asociado a la transferencia de datos.
Esta solución se basa en el uso de tecnologías de Amazon Web Services (AWS) para acceder a los datos almacenados en Google Cloud Platform (GCP) BigQuery. Utiliza Amazon Athena Federated Query, que permite realizar consultas dentro de BigQuery directamente desde Athena, facilitando así la preparación de los datos con Amazon SageMaker Data Wrangler. Finalmente, los datos se emplean en la creación de modelos de aprendizaje automático a través de Amazon SageMaker Canvas, una herramienta sin necesidad de programación.
SageMaker Canvas permite a los analistas de negocio importar datos de más de 50 fuentes y preparar estos datos con un lenguaje natural y más de 300 transformaciones integradas. Esto facilita la construcción de modelos predictivos y su despliegue en producción sin requerir experiencia previa en programación o aprendizaje automático. Además, proporciona la flexibilidad de empezar con un entorno sin código y, si es necesario, avanzar a un enfoque con código más personalizado a través de la integración con Amazon SageMaker Studio.
El procedimiento para configurar esta arquitectura consta esencialmente de dos etapas: primero, se configura Amazon Athena para ejecutar consultas federadas en BigQuery, lo que permite obtener datos en tiempo real sin necesidad de moverlos. Luego, se importan estos datos a SageMaker Canvas mediante el uso de Athena como intermediario. Esto permite a las instituciones construir y desarrollar modelos de aprendizaje automático basados en datos frescos e integrados sin dificultades técnicas significativas.
La arquitectura garantiza además la seguridad del proceso mediante el uso de Amazon Secrets Manager, que almacena y accede de forma segura a las credenciales necesarias, y utiliza funciones serverless de Lambda para proporcionar escalabilidad en el manejo de grandes volúmenes de datos. Esta solución no solo simplifica el acceso y la utilización de big data para aprendizaje automático, sino que también hace que estas tecnologías avanzadas sean accesibles a más organizaciones, democratizando su uso y potenciando la innovación empresarial.