Desbloqueando LLMs japoneses con AWS Trainium: Innovaciones del programa de soporte de desarrollo de LLMs de AWS

Elena Digital López

Amazon Web Services (AWS) se ha comprometido a apoyar el desarrollo de tecnologías de inteligencia artificial generativa (IA) de vanguardia por parte de empresas y organizaciones en todo el mundo. Como parte de este compromiso, AWS Japón anunció el Programa de Apoyo al Desarrollo de Modelos de Lenguaje Grandes (LLM Program), mediante el cual han tenido el privilegio de trabajar junto a algunos de los equipos más innovadores de Japón. Desde startups hasta grandes empresas globales, estos pioneros están aprovechando el poder de los modelos de lenguaje grandes (LLM) y los modelos base para impulsar la productividad, crear experiencias diferenciadas para los clientes y fomentar el progreso significativo en una variedad de industrias utilizando la infraestructura de IA generativa de AWS. Cabe destacar que 12 de las 15 organizaciones que participaron con éxito en el programa utilizaron las potentes capacidades de cómputo de AWS Trainium para entrenar sus modelos y ahora están explorando AWS Inferentia para la inferencia. A principios de este año, al concluir el programa, se llevó a cabo una rueda de prensa donde varias empresas pioneras presentaron sus resultados y experiencias. Aquí compartimos un resumen de esos resultados y analizamos cómo las organizaciones participantes utilizaron el LLM Program para acelerar sus iniciativas de IA generativa.

Desde su lanzamiento, el LLM Program ha acogido a 15 empresas y organizaciones diversas, cada una con una visión única de cómo usar los LLMs para promover el progreso en sus respectivas industrias. El programa proporciona un apoyo integral mediante orientación para asegurar una infraestructura de cómputo de alto rendimiento, asistencia técnica y resolución de problemas para el entrenamiento distribuido, créditos en la nube y apoyo para salir al mercado. También facilitó sesiones de intercambio de conocimiento colaborativo, donde los principales ingenieros de LLM se reunieron para discutir las complejidades técnicas y consideraciones comerciales de su trabajo. Este enfoque holístico permitió a las organizaciones participantes avanzar rápidamente en sus capacidades de IA generativa y llevar soluciones transformadoras al mercado.

Ricoh, una de las empresas participantes, reconoció que el desarrollo de LLMs en japonés estaba rezagado en comparación con los LLMs en inglés o multilingües. Para abordar esto, el Centro de Desarrollo de Tecnología Digital de la empresa desarrolló un LLM bilingüe japonés-inglés mediante una estrategia de aprendizaje curricular cuidadosamente diseñada. Takeshi Suzuki, Director Adjunto del Centro de Desarrollo de Tecnología Digital, explica que aunque están surgiendo rápidamente nuevas arquitecturas de modelos para modelos base y LLMs, se centraron en refinar sus metodologías de entrenamiento para crear una ventaja competitiva, en lugar de perseguir exclusivamente la novedad arquitectónica.

Stockmark, otra empresa del programa, buscó construir LLMs altamente confiables para aplicaciones industriales y decidió preentrenar un LLM japonés para abordar el problema de la alucinación, es decir, la producción de contenido inexacto. Para ello, utilizaron una gran cantidad de datos textuales japoneses, incluidos datos públicos y datos propios de dominios comerciales.

El grupo NTT, en colaboración con Intel y Sony, está desarrollando el LLM de alto rendimiento y bajo peso tsuzumi, que mejora la calidad y cantidad de datos de entrenamiento en japonés sin aumentar el tamaño del parámetro. Este modelo demostró una alta competencia en el idioma japonés y capacidades multimodales que están en progreso.

El programa también fomentó la creación de modelos específicos por dominio, modelos multimodales y modelos diversos lingüísticamente. Por ejemplo, KARAKURI desarrolló un LLM para chatbots de atención al cliente, mientras que Watashiha creó un modelo enfocado en el humor llamado OGIRI. Preferred Networks desarrolló un modelo de visión general que puede integrar y procesar información textual y visual.

En conclusión, el LLM Program de AWS en Japón ha demostrado ser un éxito, con las organizaciones participantes logrando avances significativos en sus capacidades de IA generativa y encontrando nuevas aplicaciones para estas tecnologías en el mundo real. Esto resalta el compromiso de AWS con el fomento de la innovación y el progreso en el campo de la inteligencia artificial, tanto en Japón como globalmente.

Scroll al inicio