Transmisión de Audio Multicanal a Amazon Transcribe usando la API de Web Audio

Application diagram

En un avance significativo para la transcripción de audio, Amazon ha lanzado una nueva función en su plataforma Amazon Transcribe que permite la transmisión de transcripciones multicanal. Esta innovación es particularmente beneficiosa para aquellos que trabajan en entornos colaborativos, ya que facilita la integración de múltiples fuentes de audio a través de un navegador web. Utilizando la API de Web Audio de JavaScript, se pueden conectar y combinar diversas fuentes de audio como videos, archivos o micrófonos para generar transcripciones precisas.

El proceso detallado en el artículo incluye el uso de dos micrófonos como fuentes de audio. La metodología permite fusionar estos micrófonos en un solo canal estéreo, el cual luego es enviado a Amazon Transcribe para su transcripción. Se proporciona un tutorial con código fuente desarrollado en Vue.js, resaltando la flexibilidad del sistema para adaptarse a distintos dispositivos y fuentes de audio.

Una de las ventajas más destacadas es la capacidad de obtener transcripciones de dos fuentes en una sola sesión, lo que conlleva un ahorro de costos y simplificación en la recolección de datos. Sin embargo, este método también presenta ciertos desafíos, como la identificación de hablantes mediante etiquetas de Amazon Transcribe, que se asignan aleatoriamente al inicio. Esto puede complicar el mapeo de resultados en la aplicación del usuario, especialmente si las voces de los hablantes son similares. Además, podría ocurrir una superposición de voces si ambos micrófonos capturan sonido simultáneamente. Utilizar micrófonos direccionales y gestionar adecuadamente el volumen son estrategias recomendadas para abordar estos problemas.

La implementación de esta tecnología requiere ciertos prerrequisitos, incluidas las claves de acceso a AWS. El artículo proporciona una guía paso a paso para iniciar la aplicación, abarcando la administración de conexiones de micrófonos y el procesamiento del audio con la API de Web Audio. También se describe cómo fusionar audio y transmitirlo en formato PCM a Amazon Transcribe.

Uno de los aspectos más innovadores es el empleo de trabajos de audio (Audio Worklet) para un procesamiento de baja latencia, lo que permite no solo la fusión de canales de audio sino también la codificación de datos en tiempo real.

En resumen, la nueva funcionalidad de Amazon Transcribe es una herramienta valiosa para transcripciones en tiempo real, ideal para reuniones, interfaces controladas por voz y más. Esta solución abre nuevas oportunidades para desarrolladores y empresarios interesados en explorar aplicaciones pioneras.

Scroll al inicio