Preparación de datos con IA generativa y ML sin código sobre Amazon SageMaker Canvas

Elena Digital López

Amazon SageMaker Canvas ha dado un paso significativo para las empresas al habilitar el soporte de datasets a escala de petabytes. A partir de hoy, las organizaciones pueden preparar interactivamente grandes conjuntos de datos, crear flujos de datos de extremo a extremo y realizar experimentos de machine learning automático (AutoML) en petabytes de datos—un salto sustancial desde el límite anterior de 5 GB. Con más de 50 conectores, una intuitiva interfaz de Chat para la preparación de datos y soporte para petabytes, SageMaker Canvas ofrece una solución escalable de machine learning de baja o nula codificación (LCNC) para manejar casos de uso empresariales reales.

Las organizaciones suelen enfrentar dificultades para extraer información significativa y valor de su voluminosa cantidad de datos en crecimiento. Se requiere experiencia en ingeniería de datos y tiempo para desarrollar los scripts y pipelines adecuados para gestionar, limpiar y transformar los datos. Posteriormente, es necesario experimentar con numerosos modelos e hiperparámetros que requieren conocimientos especializados. Además, es imprescindible gestionar clústeres complejos para procesar y entrenar los modelos de machine learning sobre estos conjuntos de datos a gran escala.

A partir de hoy, se puede preparar datos a escala de petabytes y explorar muchos modelos de ML con AutoML mediante chat y unos pocos clics. En esta ocasión, mostramos cómo se pueden completar todos estos pasos con la nueva integración en SageMaker Canvas con Amazon EMR Serverless sin necesidad de escribir código.

Para la demostración, utilizamos un dataset de muestra de un archivo CSV de 33 GB que contiene transacciones de compra de vuelos de Expedia entre el 16 de abril de 2022 y el 5 de octubre de 2022. Usamos las características para predecir la tarifa base de un boleto en función de la fecha del vuelo, la distancia, el tipo de asiento, y otros factores.

En las siguientes secciones, demostramos cómo importar y preparar los datos, exportarlos opcionalmente, crear un modelo y ejecutar inferencias, todo ello en SageMaker Canvas.

Antes de comenzar, es necesario cumplir con algunos requisitos previos, como configurar SageMaker Canvas, descargar el dataset desde Kaggle y subirlo a un bucket de Amazon S3, y agregar EMR Serverless como entidad de confianza para el rol de ejecución de SageMaker Canvas.

Inicializamos el proceso importando datos desde Amazon S3 utilizando Amazon SageMaker Data Wrangler en SageMaker Canvas. Esto permite interactuar con una muestra de los datos antes de escalar la preparación del flujo de datos al conjunto completo. Posteriormente, ofrecemos una vista de las recomendaciones de calidad de datos para mejorar el rendimiento del modelo.

La preparación de datos con SageMaker Canvas se ha simplificado gracias a la función de Chat para preparación de datos, que utiliza inteligencia artificial generativa para reducir el tiempo y esfuerzo necesarios para las complejas tareas de preparación de datos. También se pueden utilizar transformaciones LCNC con la interfaz de SageMaker Data Wrangler.

Para procesar el dataset completo de 33 GB, se puede ejecutar el flujo de datos usando EMR Serverless sin preocuparse por la infraestructura. Finalmente, se puede crear un modelo proporcionando el nombre del dataset y del modelo, seleccionando el tipo de problema y la columna objetivo, y ejecutando el proceso de construcción rápida.

El resultado obtenido se puede analizar a través de varias pestañas, incluyendo una visión general, puntuación y métricas avanzadas.

Para ejecutar inferencias, se pueden generar predicciones en el conjunto de datos de prueba seleccionado y revisar las predicciones. Con estas capacidades de preparación de datos, creación de modelos y generación de predicciones a escala, SageMaker Canvas proporciona herramientas avanzadas de AutoML accesibles mediante una interfaz de lenguaje natural.

La introducción de soporte de AutoML a escala de petabytes en SageMaker Canvas representa un hito significativo en la democratización del ML. Combinando el poder de la IA generativa, el AutoML y la escalabilidad de EMR Serverless, las organizaciones de todos tamaños pueden desbloquear insights y generar valor empresarial a partir de grandes y complejos datasets, haciendo que los beneficios del ML estén al alcance de todos y transformando la forma en que las empresas abordan los datos y la inteligencia artificial.

Scroll al inicio