Google Translate se expande: 110 nuevos idiomas gracias a la IA

Google ha anunciado una de sus mayores expansiones hasta la fecha para Google Translate, añadiendo soporte para 110 nuevos idiomas. Entre los nuevos idiomas se incluyen el cantonés, NKo y tamazight, lo que demuestra el compromiso continuo de la empresa con la eliminación de barreras lingüísticas y la conexión de personas en todo el mundo.

La herramienta de traducción de Google ha sido fundamental para ayudar a las personas a comprender mejor el mundo que les rodea. Con el uso de la inteligencia artificial, Google busca hacer que esta herramienta sea accesible para una audiencia aún más amplia. En 2022, la empresa añadió 24 nuevos idiomas utilizando la traducción automática sin ejemplos previos, y con la Iniciativa de los 1.000 Idiomas, Google se comprometió a desarrollar modelos de IA que apoyen a los 1.000 idiomas más hablados del mundo.

Expansión masiva con el modelo de lenguaje PaLM 2

Gracias al modelo de lenguaje avanzado PaLM 2, Google está implementando 110 nuevos idiomas en Google Translate. Esta expansión es la mayor que la empresa ha realizado hasta ahora, y permitirá que más de 614 millones de hablantes, alrededor del 8% de la población mundial, accedan a traducciones en sus idiomas nativos. Algunos de estos idiomas tienen más de 100 millones de hablantes, mientras que otros son lenguas de pequeñas comunidades indígenas o están en proceso de revitalización.

Destacados de los nuevos idiomas

Entre los nuevos idiomas se encuentran:

  • Afar: Un idioma tonal hablado en Yibuti, Eritrea y Etiopía, que ha recibido numerosas contribuciones de la comunidad de voluntarios.
  • Cantonés: Muy solicitado en Google Translate, el cantonés a menudo se confunde con el mandarín en la escritura, lo que hace difícil encontrar datos y entrenar modelos.
  • Manx: La lengua celta de la Isla de Man, casi extinta con la muerte de su último hablante nativo en 1974, pero ahora revitalizada con miles de hablantes.
  • NKo: Una forma estandarizada de los idiomas Manding de África Occidental, con un alfabeto único inventado en 1949 y una comunidad de investigación activa.
  • Panyabí (Shahmukhi): La variedad de panyabí escrita en el alfabeto persa-árabe, siendo la lengua más hablada en Pakistán.
  • Tamazight (Amazigh): Un idioma bereber hablado en el norte de África, con varias formas de escritura, incluido el alfabeto latino y el tifinagh.
  • Tok Pisin: Un criollo basado en el inglés y la lengua franca de Papúa Nueva Guinea.

Criterios para la elección de idiomas

La inclusión de nuevos idiomas en Google Translate implica considerar diversas variantes regionales, dialectos y estándares ortográficos. Muchas lenguas no tienen una forma estándar única, por lo que Google prioriza las variedades más comúnmente utilizadas. Por ejemplo, el romaní tiene muchos dialectos en Europa, y Google Translate se centra en la variante más utilizada en línea, el romaní Vlax del sur.

El modelo PaLM 2 ha sido crucial para aprender eficientemente idiomas estrechamente relacionados entre sí, como los cercanos al hindi (Awadhi y Marwadi) y los criollos franceses (criollo seychellense y criollo mauriciano). A medida que la tecnología avanza y Google continúa colaborando con lingüistas expertos y hablantes nativos, se espera que se amplíe el soporte a más variedades de idiomas y convenciones ortográficas.

Esta expansión no solo facilita la comunicación global, sino que también apoya la preservación y revitalización de lenguas menos comunes, reforzando el compromiso de Google con la diversidad lingüística y la inclusión cultural.

Scroll al inicio