Tech

¿Por qué Google, Microsoft y Amazon aman nuestra voz?

En el mundo de la tecnología los asistentes de voz juegan cada vez un papel más importante en cuanto a investigación y desarrollo. Las empresas, incluso, recopilan la voz de sus clientes para perfeccionar sus herramientas.
Bloomberg
13 diciembre 2016 11:16 Última actualización 19 diciembre 2016 4:55
ilustración

Ilustración: MichaelDeForge / Bloomberg. (Especial)

El dispositivo Echo de Amazon ha hecho realidad la promesa de un asistente personal artificialmente inteligente en cada hogar.

Quienes tienen esta unidad de comando de voz (conocida como Alexa, por su interlocutora mujer) suelen elogiar sus encantos, aplaudir la capacidad de Alexa de pedir un Uber, ordenar una pizza o revisar la tarea de matemáticas de un alumno de 10º grado.

La compañía dice que más de 5 mil personas por día profesan su amor por Alexa.

Pero los devotos de Alexa también saben que, a menos que se le hable muy claro y muy lento, ella va a decir: “Lo lamento, no tengo la respuesta a esa pregunta”.

El reconocimiento de voz ha recorrido un largo camino en los últimos años. Pero todavía no es lo suficientemente bueno como para popularizar la tecnología para su uso cotidiano y marcar el comienzo de una nueva era en la interacción persona-máquina que nos permita hablar con todos nuestros aparatos: automóviles, lavarropas, televisores.

Pese a los avances en el reconocimiento de la voz, la mayoría de las personas aún tocan, cliquean o deslizan el dedo por la pantalla. Y probablemente lo sigan haciendo en el futuro cercano.

¿Qué es lo que frena el progreso? En parte, la inteligencia artificial que emplea la tecnología tiene margen para mejorar. Asimismo, hay un grave déficit de datos, sobre todo de audios de voces humanas que hablen en múltiples idiomas, acentos y dialectos en las circunstancias frecuentemente ruidosas que pueden hacer fracasar al código.

Por ello, Amazon, Apple Microsoft y la china Baidu se han embarcado en una caza mundial de terabytes de habla humana.

Microsoft ha creado apartamentos ficticios en ciudades de todo el planeta para grabar a voluntarios que hablen en un ambiente familiar.

Cada hora, Amazon sube consultas de Alexa a un gigantesco depósito digital. Baidu está recolectando todos los dialectos de China. Luego toma todos esos datos y los utiliza para enseñar a sus computadoras a analizar, comprender y responder a órdenes y preguntas.

Cuando uno le ordena a su teléfono que busque algo, que reproduzca una canción o que lo guíe a un determinado destino, es muy probable que una compañía lo esté grabando. (Apple, Google, Microsoft y Amazon subrayan que anonimizan los datos de los usuarios para proteger la privacidad de sus clientes).

“Por su diseño, Alexa se vuelve más inteligente a medida que se la usa”, dice Nikko Strom, científico jefe del programa.

Uno de los principales retos es conseguir que la tecnología trabaje con múltiples idiomas, acentos y dialectos. En ninguna parte, quizás, esto es más importante que en China.

Tratando de cosechar dialectos de todo el país, Baidu lanzó una campaña de marketing durante el Año Nuevo Chino a principios de este año. Llamó a la "iniciativa de conservación dialecto", con la que el gigante de las búsquedas prometió a las personas que ayudarían a marcar el comienzo de un futuro en el que hablarían con Baidu usando su dialecto.

En dos semanas, la compañía registró más de mil horas de discurso en sus ordenadores. Muchas personas lo hicieron de forma gratuita, simplemente porque estaban orgullosos de sus dialectos ciudad natal. Un profesor de secundaria en Sichuan estaba tan entusiasmado con el programa, que le pidió a un grupo de estudiantes registrar más de mil poemas antiguos en Sichuan.

Otro reto: la enseñanza de la tecnología de reconocimiento de voz para recoger los datos, por ejemplo, en medio del ruido del clamor de la hora feliz, o un estadio deportivo.

Microsoft ha desplegado una aplicación de Xbox llamada Estudio de voz para recolectar conversación de los usuarios al disparar a villanos o ver películas.

La compañía ofreció recompensas, incluyendo los puntos y ropa para los avatares digitales y atrajo a cientos de sujetos que desean dedicar su charla de juego a los esfuerzos de voz de Microsoft.

Las empresas también están diseñando sistemas de reconocimiento de voz para situaciones específicas. Microsoft ha probado una tecnología que puede responder a las consultas de los viajeros sin distraerse con el constante bombardeo de anuncios de vuelos en los aeropuertos y que también puede utilizarse en el sistema de pedidos automáticos de McDonald’s que se hacen desde el automóvil.

En Amazon están realizando pruebas en automóviles, desafiando a Alexa a funcionar bien con el ruido de la calle y las ventanillas abiertas.

Google en general adhiere a una filosofía de menos es más, aplicando un abordaje fragmentado que utiliza unidades ininteligibles de sonido para armar palabras y frases.

Con este sistema de reconocimiento de voz, la compañía apunta a resolver numerosos problemas con apenas un cambio. Para sus conjuntos de datos, Google enlaza decenas de miles de fragmentos de audio que suelen durar de dos a cinco segundos.

Por su parte, Baidu está trabajando en algoritmos más eficientes por los que el aprendizaje de un idioma facilita el aprendizaje de los siguientes doce.

Los investigadores no saben cuándo será posible hablar de forma natural con un asistente digital, pero esperan un gran avance, catapultando la investigación y hacer que Alexa y Siri sean conversadoras verdaderas.

Todas las notas TECH
Plataforma que usan los hijos de Bill Gates está disponible para ti
Fragmentos del universo, a la venta por 7 mil pesos en la CDMX
Fintech mexicanas se preparan para llegar a Europa y Medio Oriente
Huawei no está ebria, aunque podría estar un poco mareada
¿Por qué las ballenas crecieron tanto? Esto dicen los científicos
Apple trabaja en un chip que alimente Inteligencia Artificial a dispositivos
La odisea ciclista de Branson en Italia
Él es el mexicano que Zuckerberg destacó en Harvard y ésta es la razón
Millonario quiere dar la vuelta al mundo con avión solar ¡y sin escalas!
'The next big thing' para Samsung: fármacos hechos con células
Slim quiere reemplazar los taxis de la CDMX por coches eléctricos
Ciclones se agitan en los polos de Júpiter
Google, el nuevo desafío para los reclutadores de Europa
Amazon abre su primera librería en Nueva York
Crece el miedo a otro WannaCry
Autoridades piden acceso a mensajes cifrados de redes sociales por terrorismo
Waze quiere que compartas tu auto
Microsoft asegura que esta es la pluma digital más precisa del mercado
Este robot mexicano busca hacer las tareas del campo más sencillas
Xbox tendrá su 'Netflix' de videojuegos
Google quiere ayudar a crear estrategias de marketing inteligentes
Microsoft desarrolló edición más segura de Windows 10 pero... es para China
Axtel impulsará a estos seis emprendedores (y dos son mexicanos)
Jeff Bezos dona un millón de dólares a ONG de defensa de la prensa
4 apps para viajar por el mundo... sin temor