El favorito de la tecnología alemana, DeepL, ha lanzado (finalmente) un servicio de voz a texto. Se llama DeepL Voice y convierte el audio de conversaciones en vivo o videos en texto traducido.
Los usuarios de DeepL ahora pueden escuchar a personas que hablan un idioma que no entienden y traducirlo automáticamente a un idioma que conocen, en tiempo real. La nueva funcionalidad actualmente admite inglés, alemán, japonés, coreano, sueco, holandés, francés, turco, polaco, portugués, ruso, español e italiano.
Lo que hace emocionante el lanzamiento de DeepL Voice es que se ejecuta en las mismas redes neuronales que la oferta de texto a texto de la compañía, que quejas es el “el mejor del mundo” AI traductor.
Como alguien que acaba de mudarse a un país extranjero, no puedo esperar a probar un traductor de voz a texto que realmente podría funcionar. No todos los que he probado hasta ahora son en tiempo real (hay un retraso que los hace bastante inútiles) y la calidad de la traducción es bastante pobre.
Para conversaciones cara a cara, puedes iniciar DeepL Voice en tu móvil y colocarlo entre tú y la otra persona. Luego muestra su conversación para que cada persona pueda seguir fácilmente las traducciones en un solo dispositivo.
También puedes integrar DeepL Voice en Microsoft Teams y realizar videoconferencias a pesar de las barreras del idioma. El texto traducido aparece en una barra lateral como subtítulos. Queda por ver si DeepL Voice pronto estará disponible en plataformas como Zoom o Google Meet.
“La próxima frontera”
Si bien esta es la primera oferta de este tipo de DeepL, es poco probable que sea la última. Fundador y director ejecutivo de DeepL, Jarek Kutylowski llamado traducción de voz en tiempo real EL «próxima frontera” para la empresa.
«DeepL ya es líder en traducción escrita, pero la traducción de voz en tiempo real es una historia completamente diferente», dijo el fundador y director ejecutivo de DeepL. Jarek Kutylowski.
“Cuando traduces voz, te enfrentas a entradas incompletas, problemas de pronunciación, latencia y más, todo lo cual puede generar traducciones inexactas y una mala experiencia de usuario.
«ENTONCES Creamos una solución que tomaría en cuenta estos elementos desde el principio y permitiría a las empresas eliminar las barreras del idioma al permitirles comunicarse en varios idiomas según sea necesario”, dijo Kutilowski.
La calidad probablemente será el diferenciador de DeepL Voice de muchos otros proveedores de traducción de voz a texto.
Desde una perspectiva tecnológica, el éxito de DeepL reside en la arquitectura de sus redes neuronales, la contribución de los editores humanos y los datos de entrenamiento. Pero Kutylowski también cree que tiene una ventaja clave sobre sus competidores: la concentración.
«La concentración siempre es importante», Kutylowski dicho anteriormente Nuevo Mundo. “La traducción no es el negocio principal de Google; es uno de los 100 trabajos secundarios. Lo mismo ocurre si consideramos los LLM y OpenAI de este mundo como nuestros competidores; la traducción es solo una de las cosas que hacen y su GPU hace muchas cosas diferentes. Nos centramos en un área en particular.
En mayo, DeepL alcanzó una valoración de 2.000 millones de dólares tras conseguir una nueva inversión de 300 millones de dólares (277 millones de euros). Cubre 32 idiomas y cuenta con más de 100.000 usuarios profesionales.