New York Times Syndicate

¿Qué tan humana debe ser la voz de una computadora?

Cada vez más dispositivos utilizan la interacción con voz para comunicarse con sus dueños que tienen las manos ocupadas, por lo que los desarrolladores tienen la tarea de crear una “personalidad” computarizada.
New York Times
04 marzo 2016 15:37 Última actualización 06 marzo 2016 15:58
Especial computadoras.

El desafío de crear una “personalidad” computarizada es ahora el que enfrenta un creciente número de diseñadores de software. (NYT)

Cuando las computadoras hablan, ¿qué tan humanas deberían sonar?

Esta fue la pregunta que enfrentó un equipo de seis lingüistas, ingenieros y mercadólogos de IBM en 2009, cuando empezó a diseñar una función que convertía texto en expresión verbal para Watson, el programa de inteligencia artificial de la compañía que juega “Jeopardy!”.

Dieciocho meses después, una voz cuidadosamente elaborada _ que no sonaba totalmente humana pero tampoco como HAL 9000 de la película “2001: A Space Odyssey” _ expresó el carácter sintético de Watson en un encuentro altamente publicitado en el cual el programa derrotó a dos de los mejores jugadores humanos de “Jeopardy!”


El desafío de crear una “personalidad” computarizada es ahora el que enfrenta un creciente número de diseñadores de software a medida que las computadoras se vuelven portátiles y los usuarios con las manos y los ojos ocupados usan cada vez más la interacción de voz.

Las máquinas están escuchando, entendiendo y hablando, y no solo las computadoras y los smartphones. Se han añadido voces a una amplia variedad de objetos cotidianos como autos y juguetes, así como a “aparatos eléctricos” de información doméstica como los robots que hacen compañía en casa Pepper y Jibo, y Alexa, la voz del dispositivo parlante de Amazon Echo.

Está surgiendo una nueva ciencia del diseño en la búsqueda de crear lo que se llaman “agentes conversacionales”, programas de software que comprenden el lenguaje natural y la expresión verbal y pueden responder a órdenes de voz humanas.

Sin embargo, la creación de esos sistemas, encabezados por investigadores en un campo conocido como diseño de interacción de computadora humana, sigue siendo tanto un arte como una ciencia.

No es posible aún crear una voz computarizada que sea distinguible de una humana para algo más largo que frases cortas que pudieran ser usadas para pronósticos del clima o comunicar indicaciones para conductores.

La mayoría de los diseñadores de software reconocen que siguen enfrentando el cruzar el “valle siniestro”, en el cual las voces que suenan casi humanas realmente son perturbadoras o discordantes. La frase fue acuñada por el roboticista japonés Masahiro Mori en 1970. Observó que conforme las animaciones gráficas se volvían más similares a los humanos, había un punto en el cual llegaban a ser atemorizantes y extrañas antes de mejorar para volverse indistinguibles de los videos de humanos.

Lo mismo aplica al habla.

“Discordante es la forma en que lo expresaría”, dijo Brian Langner, científico del habla en ToyTalk, una firma tecnológica en San Francisco que crea expresión verbal digital para cosas como la muñeca Barbie.

Cuando las máquinas hacen algunas de esas cosas de la manera correcta, la gente tiende a esperar que harán correctamente todo

Más allá de la pronunciación correcta, existe el desafío incluso más grande de dotar correctamente al habla de cualidades humanas como la inflexión y la emoción. Los lingüistas llaman a esto “prosodia”, la capacidad para añadir el acento, la entonación o el sentimiento correctos al lenguaje hablado.

Hoy, incluso con todo el progreso, no es posible representar completamente emociones ricas en el habla humana vía la inteligencia artificial. Los primeros resultados de la investigación experimental _ obtenido a través del empleo de algoritmos de aprendizaje de máquinas y enormes bases de datos de emociones humanas incorporadas en el habla _ apenas están poniéndose a disposición de los científicos del habla.

El habla sintetizada se crea de varias maneras. Las técnicas de más alta calidad para el habla que suene natural empiezan con una voz humana que es usada para generar una base de datos de las partes e incluso subpartes de la expresión verbal en muchas formas diferentes. Un actor de voz humana podría pasar desde 10 hasta cientos de horas, si no más, grabando para cada base de datos.

Las raíces de la tecnología moderna de síntesis del habla radican en los primeros trabajos del científico computacional escocés Alan Black, quien ahora es profesor en el Instituto de Tecnologías del Lenguaje en la Universidad Carnegie Mellon.

Black reconoce que aun cuando se han hecho importantes avances, los sistemas de síntesis del habla no logran aún una perfección similar a la humana. “El problema es que no tenemos buenos controles sobre cómo decir a estos sintetizadores: ‘Digan esto con sentimiento’”, afirmó.

Para desarrolladores como los de ToyTalk que diseñan personajes de entretenimiento los errores quizá no sean fatales, ya que el objetivo es entretener o incluso hacer reír a su audiencia. Sin embargo, para programas que están destinados a colaborar con humanos en situaciones comerciales o para ser compañeros, los desafíos son más sutiles.

Estos diseñadores a menudo dicen que no quieren tratar de hacer creer a los humanos que las máquinas están comunicándose, sino que aún quieren crear una relación tipo humana entre el usuario y la máquina.

“Jeopardy!” fue un problema de síntesis del habla particularmente desafiante para los investigadores de IBM porque aunque las respuestas eran breves, había una enorme cantidad de errores de pronunciación posibles.

“La tasa de error, al simplemente pronunciar correctamente una palabra, fue nuestro mayor problema”, dijo Andy Aaron, un investigador del Laboratorio de Entornos Cognitivos de IBM Research.

Varios miembros del equipo pasaron más de un año creando una base de datos gigantesca de pronunciaciones correctas para reducir los errores lo más cerca de cero posible. Frases como brut Champagne, carpe diem y sotto voce presentaron potenciales campos minados de errores, haciendo imposible seguir a ciegas los lineamientos de pronunciación.

Los investigadores entrevistaron a 25 actores de voces, en busca de un sonido humano particular a partir del cual crear la voz de Watson. Estrechándola a la voz que les gustaba más, luego jugaron con ella en varias formas, en cierto momento incluso cambiando su frecuencia para que sonara como la de un niño.

“Este tipo de personaje fue fuertemente rechazado casi por todos”, dijo Michael Picheny, gerente en el Laboratorio Multimodal Watson de IBM Research. "No queríamos que la voz sonara con exagerado entusiasmo".

Los investigadores buscaban una voz de máquina que fuera lenta, constante y, lo más importante, “agradable”. Y, al final, actuando más como artistas que como ingenieros, sintonizaron el programa. La voz a que llegaron es claramente una computadora, pero suena optimista, incluso un poco vivaz.

Una buena interfaz de máquina computacional es una pieza de arte y debería ser tratada como tal

Todas las notas NEW YORK TIMES SYNDICATE
'Baba' hecha en casa se vuelve un gran negocio
¿Cuál es la forma más fácil de hacerse rico en la web? Con una Oferta Inicial de Monedas
¿Pueden los animales predecir terremotos?
Esta ciudad china tiene un pasado ruso... y eso es su gran problema
Empaques comestibles para combatir el calentamiento global
¿Por qué las empresas automovilísticas están contratando expertos en ciberseguridad?
De metalero a político, la historia de Freddy Lim
A sus 98 años, esta eminente científica cerebral ‘sigue de entrometida’
Esta aldea abandonada en Italia es 'retrato perfecto' de un paraíso perdido
Cuando tu casa es un castillo
¿De qué tecnológica estarías dispuesto a prescindir?
Macron y la resurrección de Europa
Dejó Wall Street para ser estilista de perros… Y triunfó
¿Por qué Instagram se está convirtiendo en el próximo 'Facebook'?
De ganar 29 dólares la hora a 19.60
Estas empresas quieren ‘meterse en tu cama’
El circo más famoso del mundo cerrará después de 146 años
Ellos son los trabajadores tecnológicos que Trump deja en el limbo
¿Por qué Facebook sigue ganándole a todos sus rivales?
Rico en líderes de IA, Canadá -por fin- trata de sacarles provecho
En este país, nada dice ‘te amo’ como un diente de cachalote
Después del Brexit, ¿Londres puede seguir siendo una capital del mundo?
Granjas de mariguana en el patio trasero dan paso al cannabis industrial en California
Para dominar al mundo, Uber tiene que conquistar la India primero
Uvas, muerte e injusticia en los campos italianos