Financial Times

Un resfriado de Google pone a debate la ‘arrogancia’ del Big Data

Seis años después de su lanzamiento, Google Flu Trends es ahora mencionado como ejemplo de las limitaciones y los peligros de la excesiva dependencia de los datos en línea.
Andrew Ward
22 julio 2014 23:56 Última actualización 23 julio 2014 5:0
Google. (Bloomberg)

Las deficiencias de Google quedaron al descubierto. (Bloomberg)

Alguna vez fue un símbolo del poder de “big data”. Se suponía que Google Flu Trends (GFT) brindaría un sistema de alerta temprana de epidemias inminentes mediante el análisis de términos de búsqueda en Internet para encontrar indicios de personas infectadas con el virus.

El concepto, fácil de entender e indudablemente bueno para la sociedad, se convirtió en un tema favorito de los comentaristas y legisladores que evangelizan acerca de los beneficios del uso de los “grandes datos”.

Sin embargo, seis años después de su lanzamiento, Google Flu Trends es ahora mencionado como ejemplo de las limitaciones y los peligros de la excesiva dependencia de los datos en línea.

Durante la temporada de gripe 2012-13, GFT predijo que 10.6 por ciento de la población estadounidense tenía alguna enfermedad similar a la influenza, cuando los datos posteriores de pacientes mostraron que la cifra real fue del 6.1 por ciento. El algoritmo fue mejorado para la temporada 2013-14, pero aun así, GFT sobrestimó los casos en un 30 por ciento.

Las deficiencias de Google quedaron al descubierto en marzo, cuando los investigadores de la Northeastern University en Boston, Harvard y en otras partes publicaron un artículo en la revista Science llamado “The parable of Google Flu: Traps in Big Data Analysis” (La parábola de Google Flu: Trampas en el Análisis de Grandes Datos).

Según ellos, GFT fue un ejemplo de "arrogancia de grandes datos" que involucró la "usualmente implícita suposición de que los grandes datos son un sustituto de la recopilación de datos y del análisis tradicional, en lugar de un complemento para los mismos".

Los investigadores descubrieron que los análisis de los informes de la gripe que los médicos entregaron a los Centros para el Control y la Prevención de Enfermedades (CDC) siguieron siendo más precisos que las predicciones de la tecnológica, a pesar de que hay un retraso de dos semanas en éstos.

"El valor comparativo del algoritmo [de GFT] como monitor independiente de la gripe es cuestionable", concluyó el artículo.

¿Qué salió mal? Los problemas incluyen individuos que buscan información sobre los síntomas de la gripe, cuando en realidad sólo tienen un resfriado, porque están preocupados de contagiarse o porque la cobertura mediática de los brotes los ha impulsado a hacerlo.

Por otra parte, cuando los usuarios buscan información sobre la gripe o cualquier otra cosa a través de Google, una lista de solicitudes de búsquedas relacionadas los anima a realizar más búsquedas de temas similares. Esto puede provocar un efecto de bola de nieve en las búsquedas relacionadas con la gripe que distorsiona los datos.

Durante su fase de diseño, los ingenieros de software de Google analizaron más de 50 millones de términos de búsqueda tratando de encontrar correlaciones potenciales con datos de los CDC sobre casos de gripe reportados en años anteriores.

Algunas de las correlaciones más fuertes incluían búsquedas como "nominaciones a los premios Oscar" y la serie de baloncesto colegial estadounidense "March Madness", que generalmente coinciden con la temporada alta de la gripe. Se eliminaron los ejemplos inútiles como éstos y se escogieron 45 términos de búsqueda que parecían ser buenos indicadores de la actividad gripal.

Los escépticos que creen que se han exagerado los beneficios del big data han subrayado las fallas en el algoritmo. Sin embargo, los propios ingenieros de software de Google hablaron abiertamente de sus limitaciones cuando lanzaron GFT en 2008.

"Este sistema no está diseñado para reemplazar las redes de vigilancia tradicionales ni suplantar la necesidad de un diagnóstico de laboratorio", escribieron en la revista Nature. "Los datos son más útiles como un medio para incentivar una mayor investigación y la recopilación de medidas directas de la actividad de la enfermedad".

Ésta fue precisamente la conclusión alcanzada por el artículo de este año en Science sobre las limitaciones de GFT. Más allá de los titulares de "arrogancia de grandes datos", los investigadores reconocieron que los datos de Google podrían mejorar la precisión de los pronósticos de gripe cuando se combinan con los datos de los CDC.

Desde entonces, otros académicos han intervenido para defender el concepto del uso de grandes datos para mejorar la epidemiología, aunque el primer intento de Google tuvo fallas.

En julio un informe de investigadores de la Harvard University y otros lugares llegó a la conclusión de que los problemas eran principalmente metodológicos, aumentando la posibilidad de que GFT pudiera volverse más preciso. "Un problema metodológico tiene una solución metodológica", escribieron.

Una forma posible de construir un modelo más robusto surgió de un estudio de la Pennsylvania State University, publicado en julio, que afirmó haber diagnosticado a personas con gripe con una precisión del 99 por ciento en base a sus actividades en los medios sociales.

Mientras que el GFT se basó en la correlación entre los términos de búsqueda y datos de la gripe en toda la población, los investigadores de Pennsylvania basaron su modelo en 104 individuos a quienes se les había diagnosticado profesionalmente el virus en el invierno 2012-13.

Los investigadores analizaron las cuentas de Twitter de esas personas para ver si habían dejado pistas sobre la enfermedad cuando estaban sufriendo de gripe.

Casi la mitad de las personas se refirieron directamente a la enfermedad en sus propios “tweets”. Sin embargo, mediante el análisis de otros patrones de uso, los investigadores fueron capaces de lograr un modelo que diagnosticó con precisión incluso aquellos que no mencionaron la gripe.

Esto se logró a través del análisis de las búsquedas de texto, cómo interactuaban con sus "seguidores" en Twitter, y la intensidad con la que usaban el sitio en comparación con cuando no tenían gripe.

Los investigadores de Pennsylvania creen que basar los algoritmos de seguimiento de enfermedades en el comportamiento en línea de las personas que se sabe que han tenido la enfermedad podría ser la clave para hacer predicciones más precisas. Pero también reconocen los problemas de privacidad que rodean tales métodos.

Mientras que su estudio se centró en la gripe, señalaron que la misma técnica podría ser utilizada para identificar a personas con "males más estigmatizados", tales como el VIH, "donde poder determinar si una persona es VIH positiva sin su conocimiento y con sólo su alias de Twitter podría dar lugar a graves consecuencias sociales y económicas".

Concluyeron: "Parece que simplemente evitar hablar de una enfermedad no es suficiente para ocultar el estado de salud de los individuos en la era de los grandes datos".

También, te pueden interesar los siguientes artículos

Europa debe imponer sanciones financieras a Rusia

Gigantes petroleros luchan por conseguir talento local

Xi Jinping en AL:  el comercio antes que la ideología