Compartir:
En el mundo de hoy, la comunicación efectiva es esencial para fomentar la inclusión y derribar barreras. Sin embargo, para las personas que dependen de métodos de comunicación visual, como el Lenguaje de Señas Americano (ASL, por sus siglas en inglés), las herramientas tradicionales de comunicación muchas veces no son suficientes. Aquí es donde entra GenASL. GenASL es una solución impulsada por inteligencia artificial generativa que traduce el habla o texto en animaciones de avatares expresivos en ASL, cerrando la brecha entre el lenguaje hablado y escrito y el lenguaje de señas.
El auge de los modelos base y el fascinante mundo de la inteligencia artificial generativa en el que vivimos abre puertas para imaginar y construir lo que antes no era posible. AWS permite a organizaciones de todos los tamaños y a desarrolladores de todos los niveles de habilidad crear y escalar aplicaciones de inteligencia artificial generativa con seguridad, privacidad y IA responsable.
La solución GenASL incluye varios servicios de AWS que trabajan juntos para permitir una traducción fluida de habla o texto en animaciones de avatares en ASL. Los usuarios pueden ingresar audio, video o texto en GenASL, que genera un video de un avatar en ASL que interpreta los datos suministrados. La solución utiliza servicios de AI y aprendizaje automático de AWS, incluidos Amazon Transcribe, Amazon SageMaker, Amazon Bedrock y modelos base.
El flujo de trabajo incluye los siguientes pasos:
1. Una instancia de Amazon EC2 inicia un proceso por lotes para crear avatares en ASL a partir de un conjunto de datos de video que consiste en más de 8,000 poses utilizando RTMPose, una herramienta de estimación de pose en tiempo real basada en MMPose.
2. AWS Amplify distribuye la aplicación web GenASL, que consta de HTML, JavaScript y CSS, a los dispositivos móviles de los usuarios.
3. Un pool de identidades de Amazon Cognito otorga acceso temporal al bucket de Amazon S3.
4. Los usuarios suben audio, video o texto al bucket de S3 utilizando el SDK de AWS a través de la aplicación web.
5. La aplicación web de GenASL invoca los servicios backend enviando la clave del objeto S3 en el payload a una API alojada en Amazon API Gateway.
6. API Gateway inicia una máquina estatal de AWS Step Functions, que orquesta los servicios de AI/ML Amazon Transcribe y Amazon Bedrock y la base de datos NoSQL Amazon DynamoDB utilizando funciones de AWS Lambda.
7. El flujo de trabajo de Step Functions genera una URL prefirmada del video del avatar en ASL para el archivo de audio correspondiente.
8. Una URL prefirmada para el archivo de video almacenado en Amazon S3 se envía de vuelta al navegador del usuario a través de API Gateway de manera asincrónica a través de sondeos. El dispositivo móvil del usuario reproduce el archivo de video utilizando la URL prefirmada.
La aplicación frontend se construyó utilizando Amplify que permite compilar, desarrollar y desplegar aplicaciones de pila completa, incluidas aplicaciones móviles y web. La conexión con S3 durante la carga del archivo de audio utiliza la identidad temporal proporcionada por el pool de identidades de Amazon Cognito.
Para obtener una experiencia de usuario óptima y asegurar una buena práctica de diseño de API, GenASL utiliza una API asincrónica que permite al cliente sondear un recurso REST para verificar el estado de su solicitud.
La arquitectura y los componentes del backend y del frontend están diseñados para proporcionar una solución escalable y segura para la generación de avatares en ASL. Además, prácticas recomendadas incluyen el uso de integración optimizada y monitoreo continuo con Amazon CloudWatch para capturar métricas y alertar al equipo de DevOps en caso de fallos.
Los próximos pasos en la evolución de GenASL incluyen la estimación de pose 3D, técnicas de blending para videos más fluidos y traducción bidireccional entre el ASL y los idiomas hablados.
La combinación de tecnologías avanzadas de conversión de voz a texto, traducción automatizada y generación de video con los servicios de AI/ML de AWS hace de GenASL una solución poderosa para mejorar la accesibilidad y la comunicación inclusiva.