¿Qué tan humana debe ser la voz de una computadora?

Cuando las computadoras hablan, ¿qué tan humanas deberían sonar?

Esta fue la pregunta que enfrentó un equipo de seis lingüistas, ingenieros y mercadólogos de IBM en 2009, cuando empezó a diseñar una función que convertía texto en expresión verbal para Watson, el programa de inteligencia artificial de la compañía que juega "Jeopardy!".

Dieciocho meses después, una voz cuidadosamente elaborada _ que no sonaba totalmente humana pero tampoco como HAL 9000 de la película "2001: A Space Odyssey" _ expresó el carácter sintético de Watson en un encuentro altamente publicitado en el cual el programa derrotó a dos de los mejores jugadores humanos de "Jeopardy!"

El desafío de crear una "personalidad" computarizada es ahora el que enfrenta un creciente número de diseñadores de software a medida que las computadoras se vuelven portátiles y los usuarios con las manos y los ojos ocupados usan cada vez más la interacción de voz.

Las máquinas están escuchando, entendiendo y hablando, y no solo las computadoras y los smartphones. Se han añadido voces a una amplia variedad de objetos cotidianos como autos y juguetes, así como a "aparatos eléctricos" de información doméstica como los robots que hacen compañía en casa Pepper y Jibo, y Alexa, la voz del dispositivo parlante de Amazon Echo.

Está surgiendo una nueva ciencia del diseño en la búsqueda de crear lo que se llaman "agentes conversacionales", programas de software que comprenden el lenguaje natural y la expresión verbal y pueden responder a órdenes de voz humanas.

Sin embargo, la creación de esos sistemas, encabezados por investigadores en un campo conocido como diseño de interacción de computadora humana, sigue siendo tanto un arte como una ciencia.

No es posible aún crear una voz computarizada que sea distinguible de una humana para algo más largo que frases cortas que pudieran ser usadas para pronósticos del clima o comunicar indicaciones para conductores.

La mayoría de los diseñadores de software reconocen que siguen enfrentando el cruzar el "valle siniestro", en el cual las voces que suenan casi humanas realmente son perturbadoras o discordantes. La frase fue acuñada por el roboticista japonés Masahiro Mori en 1970. Observó que conforme las animaciones gráficas se volvían más similares a los humanos, había un punto en el cual llegaban a ser atemorizantes y extrañas antes de mejorar para volverse indistinguibles de los videos de humanos.

Lo mismo aplica al habla.

"Discordante es la forma en que lo expresaría", dijo Brian Langner, científico del habla en ToyTalk, una firma tecnológica en San Francisco que crea expresión verbal digital para cosas como la muñeca Barbie.

Cuando las máquinas hacen algunas de esas cosas de la manera correcta, la gente tiende a esperar que harán correctamente todo

Más allá de la pronunciación correcta, existe el desafío incluso más grande de dotar correctamente al habla de cualidades humanas como la inflexión y la emoción. Los lingüistas llaman a esto "prosodia", la capacidad para añadir el acento, la entonación o el sentimiento correctos al lenguaje hablado.

Hoy, incluso con todo el progreso, no es posible representar completamente emociones ricas en el habla humana vía la inteligencia artificial. Los primeros resultados de la investigación experimental _ obtenido a través del empleo de algoritmos de aprendizaje de máquinas y enormes bases de datos de emociones humanas incorporadas en el habla _ apenas están poniéndose a disposición de los científicos del habla.

El habla sintetizada se crea de varias maneras. Las técnicas de más alta calidad para el habla que suene natural empiezan con una voz humana que es usada para generar una base de datos de las partes e incluso subpartes de la expresión verbal en muchas formas diferentes. Un actor de voz humana podría pasar desde 10 hasta cientos de horas, si no más, grabando para cada base de datos.

Las raíces de la tecnología moderna de síntesis del habla radican en los primeros trabajos del científico computacional escocés Alan Black, quien ahora es profesor en el Instituto de Tecnologías del Lenguaje en la Universidad Carnegie Mellon.

Black reconoce que aun cuando se han hecho importantes avances, los sistemas de síntesis del habla no logran aún una perfección similar a la humana. "El problema es que no tenemos buenos controles sobre cómo decir a estos sintetizadores: 'Digan esto con sentimiento'", afirmó.

Para desarrolladores como los de ToyTalk que diseñan personajes de entretenimiento los errores quizá no sean fatales, ya que el objetivo es entretener o incluso hacer reír a su audiencia. Sin embargo, para programas que están destinados a colaborar con humanos en situaciones comerciales o para ser compañeros, los desafíos son más sutiles.

Estos diseñadores a menudo dicen que no quieren tratar de hacer creer a los humanos que las máquinas están comunicándose, sino que aún quieren crear una relación tipo humana entre el usuario y la máquina.

"Jeopardy!" fue un problema de síntesis del habla particularmente desafiante para los investigadores de IBM porque aunque las respuestas eran breves, había una enorme cantidad de errores de pronunciación posibles.

"La tasa de error, al simplemente pronunciar correctamente una palabra, fue nuestro mayor problema", dijo Andy Aaron, un investigador del Laboratorio de Entornos Cognitivos de IBM Research.

Varios miembros del equipo pasaron más de un año creando una base de datos gigantesca de pronunciaciones correctas para reducir los errores lo más cerca de cero posible. Frases como brut Champagne, carpe diem y sotto voce presentaron potenciales campos minados de errores, haciendo imposible seguir a ciegas los lineamientos de pronunciación.

Los investigadores entrevistaron a 25 actores de voces, en busca de un sonido humano particular a partir del cual crear la voz de Watson. Estrechándola a la voz que les gustaba más, luego jugaron con ella en varias formas, en cierto momento incluso cambiando su frecuencia para que sonara como la de un niño.

"Este tipo de personaje fue fuertemente rechazado casi por todos", dijo Michael Picheny, gerente en el Laboratorio Multimodal Watson de IBM Research. "No queríamos que la voz sonara con exagerado entusiasmo".

Los investigadores buscaban una voz de máquina que fuera lenta, constante y, lo más importante, “agradable”. Y, al final, actuando más como artistas que como ingenieros, sintonizaron el programa. La voz a que llegaron es claramente una computadora, pero suena optimista, incluso un poco vivaz.

Una buena interfaz de máquina computacional es una pieza de arte y debería ser tratada como tal

¿Qué tan humana debe ser la voz de una computadora?

Cada vez más dispositivos utilizan la interacción con voz para comunicarse con sus dueños que tienen las manos ocupadas, por lo que los desarrolladores tienen la tarea de crear una “personalidad” computarizada.

También lee: