Personalización de modelos destilados DeepSeek-R1 con recetas de HyperPod en Amazon SageMaker – Parte 1

Elena Digital López

Las organizaciones de diferentes sectores industriales están cada vez más interesadas en implementar modelos de inteligencia artificial generativa, conocidos como modelos de fundación (FMs), para potenciar sus aplicaciones. Con la aparición de modelos como los lanzados por DeepSeek, la personalización de estos modelos se ha vuelto crucial para satisfacer necesidades específicas de cada dominio. Sin embargo, personalizar eficazmente estos modelos de DeepSeek mientras se manejan los recursos computacionales es un reto considerable. La arquitectura y el ajuste de los parámetros del modelo requieren habilidades técnicas avanzadas, lo que lleva a las empresas a menudo a enfrentarse a un dilema entre el rendimiento del modelo y las limitaciones prácticas de implementación.

En una serie reciente de dos partes, se aborda cómo simplificar la personalización de los modelos de DeepSeek utilizando flujos de trabajo preconstruidos, conocidos como «recetas», disponibles para el modelo DeepSeek-R1 y sus variaciones destiladas, en el marco de Amazon SageMaker HyperPod. La primera parte presenta una arquitectura de solución para ajustar modelos destilados de DeepSeek-R1, ofreciendo un ejemplo detallado de personalización con el modelo DeepSeek-R1 Distill Qwen 7b. Este enfoque ha mejorado notablemente las puntuaciones ROUGE, alcanzando un promedio del 25% en todas las puntuaciones y un impresionante 49% en la puntuación ROUGE-2, gracias a las capacidades de Amazon SageMaker HyperPod y los trabajos de entrenamiento de SageMaker.

La disponibilidad de las recetas de Amazon SageMaker HyperPod ha democratizado el acceso a herramientas avanzadas, permitiendo que científicos de datos y desarrolladores de cualquier nivel de habilidad comiencen a entrenar y ajustar modelos de IA generativa en cuestión de minutos. Estas recetas facilitan tareas cruciales como la carga de conjuntos de datos de entrenamiento y la aplicación de técnicas de entrenamiento distribuidas, eliminando gran parte del trabajo tedioso tradicionalmente asociado con la configuración de modelos.

El diseño modular de esta arquitectura no solo permite escalabilidad y flexibilidad, sino que también es especialmente eficaz para entrenar modelos de lenguaje de gran tamaño que requieren capacidades de computación distribuidas. Para ayudar a los clientes a aprovechar rápidamente los modelos de DeepSeek, se han lanzado nuevas recetas que permiten ajustar seis modelos de DeepSeek mediante técnicas de ajuste fino supervisado y adaptaciones de bajo rango.

En un caso práctico destacado del sector salud, se propuso el uso de estas herramientas para crear una aplicación de asistencia médica que traduzca información compleja en términos comprensibles para los pacientes. El ajuste fino del modelo DeepSeek-R1 Distill Qwen 7b, mediante un conjunto de datos médicos específicos, se ha mostrado clave para asegurar que las respuestas mantengan la precisión clínica necesaria.

El final del proceso de ajuste revela un notable incremento en la eficiencia del modelo, evidenciado por mejores puntuaciones en las métricas ROUGE, lo que sugiere que ampliar la duración del entrenamiento podría llevar a mejoras aún mayores en el rendimiento. Esta serie destaca no solo la innovación en la personalización de la IA, sino también el potencial de optimizar el uso de recursos computacionales en el entorno empresarial.

Scroll al inicio