Fundamentos Multi-cuenta: Gobernar el ciclo de vida de ML a gran escala, parte 2

Elena Digital López

Las estrategias de multi-cuenta son fundamentales para operar de manera segura y a gran escala en Amazon Web Services (AWS). La división estratégica de las cargas de trabajo en múltiples cuentas de AWS permite aplicar diferentes controles, hacer un seguimiento de costos y uso, y reducir la complejidad de gestionar múltiples nubes privadas virtuales (VPC) y accesos de identidades. Este enfoque permite que diferentes equipos accedan a cuentas específicas adaptadas a sus necesidades, asegurando a su vez la gobernanza y la seguridad.

En la primera parte de esta serie, se discutieron las mejores prácticas para operar y gobernar cargas de trabajo de machine learning (ML) y análisis a escala en AWS utilizando Amazon SageMaker. Ahora, se ofrece una guía para implementar una arquitectura de base multi-cuenta que puede ayudar a organizar, construir y gobernar módulos clave como fundamentos del data lake, servicios de plataforma ML, desarrollo de casos de uso de ML, operaciones de ML, almacenes de características centralizados, registro y observabilidad, y costos y reportes.

Implementar la estructura de cuentas y unidades organizacionales (OU) recomendada proporciona aislamiento de recursos de AWS y visibilidad de costos para los equipos de ML y análisis. Utilizando AWS Control Tower, se puede crear una zona de aterrizaje base para soportar la escalabilidad y gobernanza de las cargas de trabajo de datos y ML. Además, la referencia de arquitectura de seguridad de AWS proporciona directrices para asegurar datos y cargas de trabajo de ML a escala.

Para gestionar las cuentas, AWS Organizations permite la administración centralizada mediante la creación de agrupaciones jerárquicas en OUs. Se recomiendan OUs específicas para ML y plataformas de datos, incluyendo Seguridad, Infraestructura, Cargas de Trabajo, Despliegues y Sandbox.

Las cuentas de la OU de Seguridad incluyen herramientas como Amazon Macie para proteger datos y un archivo de registros centralizados. En la OU de Infraestructura, se recomienda crear cuentas de Red y Servicios Compartidos para administrar los recursos de red y servicios empresariales compartidos.

La OU de Cargas de Trabajo alberga cuentas específicas para equipos de ML con entornos de desarrollo, prueba y producción, además de cuentas para data lakes y gobernanza de datos. La OU de Despliegues contiene cuentas para soportar la construcción, validación y liberación de cambios en los productos, incluyendo cuentas de DevOps y servicios compartidos de ML.

El uso de AWS Control Tower facilita la creación de una zona de aterrizaje inicializada con mejores prácticas de seguridad y cumplimiento. AWS Service Catalog permite escalar las cargas de trabajo de ML permitiendo a los administradores de TI crear, gestionar y distribuir carteras de productos aprobados.

La arquitectura de red para las plataformas de ML se basa en VPCs y AWS Transit Gateway para crear una arquitectura de red escalable y segura. Se recomienda crear diferentes gateways de tránsito para regiones o entornos específicos, conectando los entornos de desarrollo directamente a Internet y los entornos de producción a la red corporativa.

En resumen, la creación de una base multi-cuenta en AWS facilita la gobernanza y la innovación en las cargas de trabajo de datos y ML. Las mejores prácticas aquí discutidas proporcionan un punto de partida sólido para establecer una infraestructura escalable, segura y bien gestionada en AWS.

Scroll al inicio