Avatares FIFA: una repetición del presente, un entrenamiento para el futuro

Cuando FIFA anunció que cada uno de los 1,248 jugadores del próximo Mundial tendría un “avatar” digital, muchos aficionados imaginaron algo sacado de un videojuego: figuras generadas por computadora controlando réplicas virtuales de Mbappé o Messi. La realidad es más interesante y, sobre todo, más útil: no son personajes que controlan a nadie. Son gemelos digitales en 3D que existen para resolver uno de los problemas más discutidos del fútbol moderno, el fuera de lugar, y para explicarlo mejor a millones de espectadores.

El sistema funciona como una cadena de cuatro tecnologías que trabajan juntas.

Primero, cada futbolista es escaneado en tres dimensiones antes del torneo. FIFA y Lenovo construyeron un modelo corporal preciso para los 1,248 jugadores convocados, capturando proporciones y geometría corporal real, no un maniquí genérico ni un esqueleto aproximado.

Segundo, durante el partido, cámaras ópticas distribuidas por el estadio siguen la posición de cada cuerpo en tiempo real, prestando atención específicamente a las partes relevantes para la regla de fuera de lugar, no solo a los pies o al centro del jugador.

Tercero, el balón inteligente resuelve el problema del tiempo: un sensor dentro del balón reporta su movimiento a alta frecuencia, lo que permite identificar el fotograma exacto en que se ejecuta el pase. Esto es crítico porque el fuera de lugar se determina por la posición de los jugadores en ese instante preciso, no un segundo antes ni después.

Cuarto, y aquí está la parte más interesante, la inteligencia artificial combina el seguimiento en vivo con el avatar personal de cada jugador. El avatar funciona como una plantilla geométrica de alta fidelidad: si un futbolista queda parcialmente oculto por otro, gira rápidamente o la cámara lo capta desde un ángulo incómodo, el sistema puede estimar la posición de sus extremidades con mayor solidez que analizando sólo el vídeo crudo. No se trata de que el avatar “invente” una decisión, es un modelo calibrado y limitado por los datos reales de rastreo.

Con esa información, el sistema calcula la geometría del fuera de lugar comparando la parte del cuerpo legalmente relevante del atacante con el segundo defensor más retrasado y la posición del balón en el instante del pase. El resultado se envía al equipo de VAR, y el árbitro humano sigue teniendo la última palabra, sobre todo en decisiones subjetivas como si un jugador interfirió con la jugada.

Los mismos datos de los avatares alimentan las transmisiones: en vez de mostrar figuras tipo maniquí, las repeticiones de VAR (Árbitro Asistente de Video) pueden usar versiones realistas de los jugadores. Esa parte es, sobre todo, una capa de comunicación para el público, porque la decisión ya se tomó con el rastreo, el tiempo del balón y el cálculo geométrico.

La fórmula es: escaneo 3D del jugador, más cámaras de rastreo del estadio, más marca de tiempo del balón inteligente, más estimación de postura por IA, igual a decisión de fuera de lugar y repetición explicativa.

El límite es claro: el sistema resuelve la parte geométrica del fuera de lugar, pero no puede automatizar juicios como la obstrucción, la jugada deliberada, la interferencia con el portero o si un jugador en posición adelantada realmente afectó la jugada. Esas decisiones siguen siendo del VAR y del árbitro.

Vale la pena poner esto en perspectiva histórica. Hace casi tres décadas, en Oxford, tuve la oportunidad de ver de cerca el desarrollo de lo que terminaría siendo Kinect: un sistema capaz de localizar partes del cuerpo en tiempo real a 270 cuadros por segundo, gracias a un modelo masivamente pre entrenado que infería la posición y conexión tridimensional de las articulaciones mediante aprendizaje automático. En ese mismo laboratorio mis amigos Ian Reid y Andrew Zisserman ya habían resuelto una de las controversias más famosas del fútbol aplicando geometría proyectiva y metrología de video al polémico gol de Geoff Hurst en la final Inglaterra–Alemania de 1966. Partieron de dos secuencias históricas filmadas desde ángulos distintos, pese a que las cámaras no estaban calibradas, se desconocía su posición y movimiento, las imágenes no estaban sincronizadas y había muy pocos puntos fiables fuera del plano del césped. En vez de intentar “mejorar” la imagen de manera subjetiva, aprovecharon restricciones geométricas del escenario: el césped como plano aproximadamente horizontal, los postes como líneas verticales y la relación proyectiva entre ambas vistas.

Con esas pistas reconstruyeron la proyección vertical del balón sobre el terreno de juego y estimaron dónde habría caído realmente respecto de la línea de gol. Su análisis mostró que, considerando errores de sincronización y distorsión de lente, el balón no habría cruzado completamente la línea; estimaron que faltaron al menos unos seis centímetros. El resultado fue notable porque anticipaba, décadas antes de la tecnología moderna de línea de gol y VAR, cómo la visión por computadora podía convertir video imperfecto y no calibrado en una medición geométrica defendible, incluso para resolver una disputa histórica cargada de emoción nacional.

Con nuevos algoritmos de la misma familia, entrenados ahora con las configuraciones específicas de los jugadores de fútbol, es posible no solo detectar posturas, sino navegar el espacio tridimensional generado y concatenar imágenes para reconstruir una jugada desde cualquier ángulo, incluidos aquellos donde ninguna cámara estuvo apuntando directamente. Y ahí está la magia de ver las jugadas más relevantes pocos segundos después con vistas de cámaras que no están en la cancha.

Y más aún, con toda esa información, se puede generar por ahora incluso los siguientes 3-4 segundos del partido, gracias al uso de las técnicas de IA generativa, puesto que además, seguramente ya se tienen “codificados” los comportamientos de los jugadores gracias a los cientos de miles de imágenes concatenadas que se pueden extraer de las miles de horas de video en línea, compaginando así sus modelos geométricos 3D con los mapeos de imágenes 2D, problema históricamente relevante en la visión por computadora

Así como les preguntamos a los LLMs (Claude, ChatGPT, etc.) para que nos den una respuesta, y gracias a un modelo fundacional entrenado con textos, imágenes y audio, ahora nos responden con precisión y lógica con un prompt, las nuevas herramientas permiten que, de manera similar a “preguntarle” a la IA secuencias de prompts automáticamente y así, los sistemas automatizados vayan produciendo de manera natural las secuencias “lógicas” de movimiento de los jugadores. Seguramente el aburridísimo (y ahora ineficiente) comportamiento de los acartonados teutones permitiría predecir fácilmente su movimiento. Y quizás, por ahora, sea más difícil predecir la creatividad de los jugadores latinos en la cancha.

Esta semana ando en la RoboCup en Incheon, Corea. Miles de entusiastas de la robótica nos encontramos en una serie de pruebas y competencias sobre las implementaciones físicas de algoritmos que buscan hacer que los robots realicen tareas de manera eficiente y, sobre todo, efectiva. El origen de la RoboCup, que data de 1996, tenía como objetivo principal lograr que en 2050 un equipo de robots pudiera ganarle al campeón de la Copa del Mundo de la FIFA.

Con la tecnología descrita anteriormente, creo que los algoritmos que podrán usar los robots de fútbol en esa época ya van muy avanzados. Y si además los robots tendrán la capacidad de comunicarse entre ellos de manera inalámbrica y de recibir actualizaciones y planeación en tiempo real, tomando en cuenta el cansancio, estrés y ritmo cardíaco de los contrincantes humanos, solo nos faltaría resolver la parte mecánica para poder competir con humanos. Hoy la gente se entretiene viendo las pifias de los humanoides comerciales en los espectáculos, y hay cientos que ahora se divierten más con esos accidentes que con la expectativa curiosa y morbosa de esperar el accidente en la F1. Pero esos videos justamente irán evolucionando conforme vayamos viendo cómo su desempeño crece exponencialmente.

Lo que vemos en el Mundial, entonces, no es ciencia ficción repentina. Es la maduración de una línea de investigación en visión por computadora y estimación de postura que lleva más de 30 años gestándose, aplicada ahora a uno de los problemas de arbitraje más polémicos y de predicción y generación de inmersiones 3D del deporte más popular del planeta. Ojalá y que el domingo, el indiscutible liderazgo algorítmico y fundacional de los Británicos no se refleje en la cancha y que esa creatividad latina vuelva impredecible nuestro nivel de juego y sea suficiente para superarlos en goles.

01011001 00100000 01110011 01101001 00100000 01110011 11000011 10101101

(¿ Y si sí ?, en binario)

Avatares FIFA: una repetición del presente, un entrenamiento para el futuro

Los nuevos avatares digitales de la FIFA no son personajes de videojuegos, sino gemelos digitales impulsados por inteligencia artificial que mejoran la precisión del del arbitraje.

COLUMNAS ANTERIORES