Compartir:
La transformación digital, impulsada por la inteligencia artificial (IA), está trazando un nuevo rumbo en varios sectores, siendo las telecomunicaciones uno de los más beneficiados. Fastweb, un prominente operador de telecomunicaciones en Italia, ha reconocido el potencial de las tecnologías de IA desde 2019, iniciando sus inversiones en este ámbito con el objetivo de desarrollar un modelo de lenguaje extenso (LLM) entrenado en italiano, para luego poner esta capacidad a disposición de terceros.
El entrenamiento de un LLM es un proceso intensivo en recursos computacionales y altamente complejo. Por ello, Fastweb decidió utilizar los servicios de inteligencia artificial generativa y aprendizaje automático de AWS, como Amazon SageMaker HyperPod, para comenzar su camino en IA. Esta plataforma permite la provisión y mantenimiento de clusters de computación a gran escala, utilizando miles de aceleradores, incluidos AWS Trainium y GPUs de NVIDIA, al tiempo que optimiza la utilización de recursos y gestiona costos mediante la flexibilidad de permitir la implantación de clusters pequeños y ágiles.
Uno de los principales desafíos que enfrentó Fastweb fue la escasez de conjuntos de datos de calidad en italiano. Para superar este obstáculo, la empresa desarrolló un conjunto de datos amplio a partir de fuentes públicas y mediante la adquisición de datos licenciados de editoriales y medios de comunicación. En su primer experimento de entrenamiento con el LLM, Fastweb realizó un ajuste fino del modelo Mistral 7B, adaptándolo para manejar tareas como la resumisión, respuestas a preguntas y escritura creativa en italiano, manteniendo un entendimiento profundo de la cultura italiana en sus respuestas.
La estrategia de ajuste fino se efectuó en AWS por varias razones, destacando la eficiencia en la preparación de datos y la obtención de resultados preliminares que aportan información valiosa para el desarrollo de modelos en italiano. La combinación de traducción de datasets del inglés al italiano y la generación de datos sintéticos mediante modelos de IA enriqueció el conjunto de datos, asegurando su calidad y diversidad, todo ello frente a la limitación de recursos.
El costo computacional para entrenar estos modelos depende del número de parámetros y de la cantidad de datos utilizados. En el caso del modelo Mistral 7B, fueron necesarios más de 156 GB de memoria de hardware para su ajuste, excluyendo la memoria adicional necesaria para los datos de entrenamiento. Para gestionar esta carga, Fastweb implementó técnicas de entrenamiento distribuido que optimizan el uso de múltiples GPUs, facilitando un procesamiento paralelo que reduce el tiempo de entrenamiento.
Después de completar el ajuste, el modelo refinado de Fastweb demostró una mejora notable, con un aumento del 20% en precisión en tareas relacionadas con el italiano, además de mostrar un dominio significativo en áreas como respuestas a preguntas y razonamiento básico. De cara al futuro, las expectativas son prometedoras: Fastweb planea desplegar sus próximos modelos en Amazon Bedrock, lo que les permitirá construir y escalar nuevas soluciones de IA generativa de manera ágil y efectiva.
Al aprovechar las capacidades de Amazon Bedrock, Fastweb no solo busca mejorar su oferta de servicios, sino también liderar la transformación digital en diferentes industrias, impulsando así la adopción de soluciones innovadoras basadas en IA. Este enfoque refuerza su compromiso con la tecnología, la eficiencia en los procesos y el fomento de oportunidades en un entorno cada vez más digitalizado.