Smartphones, chats de video para presentar subtítulos en tiempo real

Aquellos de nosotros que podemos entender que los subtítulos de video son una bendición para las personas con problemas de audición. Algunas herramientas de subtítulos, como la de YouTube, incluso use tecnología de reconocimiento de voz y algoritmos de aprendizaje automático para crear subtítulos para videos. Sin embargo, los resultados no siempre son precisos. Incluso Google admite que las pronunciaciones erróneas, los acentos, los dialectos y el ruido de fondo pueden reducir la efectividad de los subtítulos.

Dimitri Kanevsky, científico investigador de Google, que utiliza una herramienta llamada traducción en tiempo real de comunicación, o CART. Este servicio en línea tiene un subtítulo que escucha y transcribe de forma remota todas las palabras en la sala, y la transcripción aparece en la pantalla de su computadora portátil. Pero servicios como CART están basados ​​en suscripción y son caros.

  

Para hacer que tales tecnologías estén disponibles para usuarios como Dimitri en smartphones y aplicaciones, las compañías tecnológicas están incursionando en subtítulos en vivo que transcriben el discurso en tiempo real.

La próxima versión de Android, por su parte, tendrá una función opcional de subtítulos en vivo que transcribirá la salida de audio en cualquier video reproducido por el usuario en tiempo real. No se limitará a YouTube y funcionará en aplicaciones de redes sociales, podcasts, películas fuera de línea e incluso en chats de video en vivo.

Los subtítulos se generarán utilizando las herramientas de aprendizaje automático, por lo que funcionarán incluso si el usuario está desconectado. Los subtítulos en vivo en Android Q funcionarán incluso cuando el audio del teléfono esté apagado y los usuarios también podrán guardar las transcripciones de los subtítulos.

Además de YouTube, los subtítulos en vivo ahora también funcionan para Google Slides. La investigación en Google también ha lanzado una aplicación experimental llamada Live Transcribe. Desarrollado en colaboración con la Universidad Gallaudet, un instituto líder en los Estados Unidos para personas con problemas de audición. Cuando se activa, la aplicación puede transcribir cualquier sonido y voz y mostrarlo en la pantalla en tiempo real. Encontramos los resultados bastante inexactos e insensibles, pero aún está en sus primeras etapas y hay margen de mejora. Sin duda, Microsoft ya ha publicado subtítulos y subtítulos en vivo con tecnología de IA Skype, lo que permite a los usuarios leer la conversación en un desplazamiento automático mientras hablan por teléfono.

Microsoft también está trabajando en subtítulos en 20 idiomas, lo que permitirá a los usuarios comprender lo que la otra persona está diciendo en el idioma de su elección. El subtítulo en vivo también funciona para presentaciones de PowerPoint.

Ofreciendo subtítulos en vivo, ya sea en la nube como en el caso de Skype Q, requerirá mucha potencia computacional. Es una de las razones por las cuales la función de subtítulos en vivo se limitará a los modelos de gama alta. La precisión de las traducciones también dependerá de la pronunciación de los usuarios y la eficiencia de los algoritmos de aprendizaje automático. Los resultados pueden ser inconsistentes al principio, pero con el tiempo, se convertirán en una de las herramientas más poderosas para las personas con problemas de audición.