Optimización De Modelos DeepSeek-R1 Destilados Con Hugging Face TGI En Amazon SageMaker AI

Elena Digital López

DeepSeek AI, una destacada startup en el ámbito de la inteligencia artificial, ha presentado su nuevo modelo de lenguaje, DeepSeek-R1, prometiendo revolucionar el campo mediante un innovador proceso de entrenamiento dividido en múltiples etapas. Contrario a los modelos convencionales que se limitan al pre-entrenamiento y al ajuste fino, DeepSeek-R1 integra el aprendizaje por refuerzo, resultando en una mejora significativa en la precisión y refinamiento de los resultados generados. Este modelo se caracteriza por implementar un enfoque de cadena de pensamiento (CoT), que descompone consultas complejas en pasos lógicos claros, elevando la claridad en las respuestas.

DeepSeek-R1 también aprovecha las capacidades de ejecución paralela de subprocesos de NVIDIA para elevar la eficiencia durante su entrenamiento. El marco utilizado combina el ajuste fino supervisado (SFT) con la optimización de política robusta en grupos (GRPO), asegurando que los resultados sean transparentes y comprensibles.

Dentro del portafolio de modelos de DeepSeek se encuentran diversas variantes innovadoras. Por ejemplo, DeepSeek-V3, que utiliza una arquitectura de Mezcla de Expertos (MoE), mejora la eficiencia al activar solo subredes específicas en función de las entradas recibidas. Otro modelo, DeepSeek-R1-Zero, emplea el aprendizaje por refuerzo para potenciar su habilidad de razonamiento, aunque todavía enfrenta desafíos en la legibilidad y manejo de múltiples lenguajes.

DeepSeek-R1, basada también en la arquitectura de DeepSeek-V3, ha sido diseñada para incorporar SFT a través del muestreo por rechazo. Ha pasado por un ciclo adicional de aprendizaje reforzado, creando un modelo tanto robusto como eficiente.

Una variante interesante es el DeepSeek-R1-Distill, que consiste en modelos derivados de Qwen y Llama. Estos modelos destilados, que tienen a DeepSeek-R1 como modelo guía, no solo conservan su estructura original sino que además mejoran sus capacidades de razonamiento.

En anuncios recientes, se ha discutido cómo optimizar el hospedaje de estos modelos destilados mediante Hugging Face Text Generation Inference (TGI) en la plataforma Amazon SageMaker AI. Este marco de inferencia ha sido diseñado específicamente para satisfacer los exigentes requisitos de latencia y computación que demandan los modelos de lenguaje avanzados. Amazon SageMaker AI simplifica la implementación de estos modelos al integrar TGI, proporcionando un despliegue escalable y rentable.

Los elementos tecnológicos avanzados de TGI abarcan desde la paralelización de tensores hasta la cuantización y decodificación especulativa, optimizando la generación de texto a gran escala. Cuenta con funcionalidades como el batching continuo, la optimización de la caché clave-valor y el streaming de tokens en tiempo real.

Amazon SageMaker AI proporciona una ventaja considerable al permitir despliegues ágiles de DeepSeek-R1, facilitados por su capacidad de autoscalado y balanceo de carga automático, lo que maximiza la eficiencia de los recursos y minimiza costos, especialmente en periodos de baja demanda. Asimismo, ofrece opciones de implementación privada al alojar modelos en un bucket de S3.

Cada variante de DeepSeek-R1 ha sido rigurosamente evaluada en cuanto a su rendimiento de inferencia mediante criterios críticos, cruciales para garantizar la escalabilidad y eficacia en aplicaciones prácticas.

Scroll al inicio