• DPM Growth Lab
  • Posts
  • Meta presenta Voicebox: La nueva IA generativa del habla

Meta presenta Voicebox: La nueva IA generativa del habla

La mega empresa del metaverso da un salto enorme en términos tecnológicos y presenta Voicebox, una herramienta capaz de emular la voz humana hasta en seis idiomas, pero todavía no está disponible para su uso.

Si tenemos que describir con una pequeña frase cómo está siendo este 2023, podríamos simplemente decir: ABSOLUTAMENTE TECNOLÓGICO Y AVANZADO. Hemos tenido muchísimas sorpresas con lanzamientos, experimentos, robótica e inteligencia artificial, pero parece que las cosas no terminan -ni piensan terminar- ahí para ninguno, pero para este último, mucho menos…

Este tiempo algunos aficionados y creadores de contenido nos hemos dedicado a utilizar herramientas de inteligencia artificial en nuestro día a día como apoyo, disparador, rastreador o incluso, buscador de información (algo que resulta bastante bueno si la temática sobre la que quisieras escribir, no está reunida en un espacio). Todo lo que podíamos recibir hasta el momento eran grandes cantidades de referencias, citas, frases, ideas, todas ellas escritas en un formato familiar y de fácil lectura incluso, si era algo que le pedíamos al chatbot de Chat GPT o Bard a través de prompts claros y sintéticos. Si se trataba de algo propio como un storytelling, un explicativo o alguna historia que hubiésemos estado preparando para luego guionar, no sólo se nos iría el tiempo tratando de ordenar toda la información, sino que también grabar nuestra voz nos hubiese representado bastantes intentos equívocos. Pero esta última parte acaba de ser solucionada completamente por Voicebox, el nuevo desarrollo de Meta, la empresa del metaverso social que crea tecnología para ayudar a las personas a conectarse.

Pero, te preguntaras… ¿Qué es esta nueva tecnología?

Según cuenta Meta en su sitio, Voicebox es una inteligencia artificial generativa del habla -como edición, sampling y estilización de audio- para las que no fue entrenado precisamente pero puede resolver o deducir a través del aprendizaje brindado por el contexto, ¿no es INCREÍBLE?

Puede además, producir audio de altísima calidad, editar otros que hayamos grabado con anterioridad, eliminar los ruidos de fondo y todo esto conservando la voz y el estilo en el que fue grabado. Pero no termina ahí, los desarrolladores fueron más lejos y dotaron al sistema de, atentos: SEIS IDIOMAS DIFERENTES. Estamos hablando de una inteligencia multilingüe. 

Estas son excelentes noticias para los creadores de contenido. La utilidad de esta herramienta puede brindarnos mucha facilidad a la hora de realizar reels, stories, tik-toks, videos para YouTube, conversaciones o también nuestro sitio web. De hecho, Meta ve a Voicebox como un instrumento multipropósito que puede fácilmente volcarse a la asistencia virtual, dándole a una voz más humana y natural a estos elementos que flotan dentro del metaverso,o también ayudando a personas con discapacidades visuales diferentes a escuchar mensajes de sus amigos o familiares, leídos con inteligencia artificial en sus voces y quién sabe cuantas utilidades más pueda regalarnos este fascinante desarrollo.

Algunas de las tareas que permite realizar Voicebox, son:

Síntesis del contenido del habla: Con tan sólo una pequeña muestra de audio de unos 2 segundos, puede adaptar el estilo del audio y usarlo para la generación de texto a habla. O sea, tarda dos segundos en tomar tu voz para leer en voz alta TU LIBRO FAVORITO.

Edición de habla y reducción del ruido: Puede recrear una parte de un discurso que se perdió entre el ruido y también sustituír palabras mal pronunciadas sin tener que grabar todo de nuevo. O sea que, si hay algo que no se entendió del video que venías grabando, podés cortarlo y pedirle a Voicebox que vuelva a hacerlo por vos.

Transferencia de estilo entre idiomas: Cuando se le da una muestra del habla de alguien y una orden de leer un texto en inglés, francés, alemán o español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas incluso si la muestra de voz y el texto están representados en idiomas diferentes.

Muestreo de habla diversa: Al haber recibido y aprendido tantos datos, Voicebox es la única inteligencia artificial que puede representar de forma casi real, cómo se expresan las personas en el mundo en el que vivimos. CASI COMO CHARLAR CON ALGUIEN EN NUESTRO DIA A DIA.

Pero algo que debemos exaltar de esta nueva herramienta, es que, diferencia de otras plataformas que han sido pioneras en las IA generativas del habla, Meta dice que la capacidad de resolución de Voicebox es tanta, que el hecho de poder resolver situaciones para las que no estuvo entrenada o preparada, la convierten en un mecanismo propenso a ser usado indebidamente. Esto deja entender la necesidad de encontrar un equilibrio entre la apertura y la responsabilidad, teniendo -de alguna forma- que ejercer algún tipo de control sobre la herramienta, más allá de la importancia de ser abiertos con la comunidad y compartir esta su funcionalidad. Es por esto que la empresa, en primera instancia, decidió no liberar al público el uso.

Por lo que al respecto, surgen varias especulaciones: ¿Debemos tener algún tipo de licencia para poder ejercer libremente su uso? ¿Programará Meta la interfaz para detectar los propósitos para los que se está usando? ¿Bloqueará la generación de contenido como así lo hace Instagram con algunos posteos que no cumplen con su política? ¿Será este el futuro que nos espera? ¿Encontrarán las máquinas la forma correcta de indexarse a la vida humana? ¿Tendrán contraindicaciones?

Como estas, surgen cientos de preguntas alrededor para las que todavía no tenemos respuestas, pero estamos seguros de que pronto tendremos grandísimas novedades de este gigante de las redes sociales y que pronto será posible probar cuán maravillosa y útil es esta herramienta en los tiempos que corren.

¡Nos vemos la próxima!

Si te gustó nuestra información, animate a compartirla.

Si te gustó ese artículo también te puede interesar:

Se trata de la estrategia de marketing digital basada exclusivamente en resultados en la que los anunciantes (empresas o marcas) pagan una vez que el objetivo se haya cumplido.

Frente al éxito de Chat GPT, Google presenta una contraofensiva con Bard -su propio chatbot de AI- y pelea por ganarle el podio.

No es novedad que Instagram, una de las redes sociales más masivas de la actualidad, nos regale mejoras y actualizaciones cada dos por tres… Pero, ¿conocés todas las posibilidades que te brinda?