La siguiente frontera de la inteligencia artificial no está en el texto, sino en cómo modelamos la realidad

En los últimos meses ha ocurrido algo curioso en el mundo de la inteligencia artificial. Dos de sus figuras más influyentes, Fei-Fei Li y Yann LeCun, han levantado alrededor de mil millones de dólares cada uno para startups que deliberadamente no están construidas alrededor de la inteligencia artificial generativa. Mientras buena parte de la industria sigue fascinada con modelos que generan texto, imágenes o video, estos investigadores están apostando por algo diferente: sistemas capaces de comprender el mundo físico, aprender de la interacción con el entorno y construir representaciones espaciales y causales de la realidad.

Este debate no surgió de la nada. Forma parte de una discusión científica más profunda que lleva años desarrollándose dentro de la investigación en inteligencia artificial. Un ejemplo interesante es el artículo “Artificial Intelligence Is Stupid and Causal Reasoning Will Not Fix It”, publicado en la revista Frontiers in Psychology. El autor plantea una crítica interesante: muchos de los sistemas actuales de inteligencia artificial no entienden realmente el mundo; simplemente detectan patrones estadísticos en enormes cantidades de datos.

En términos simples, gran parte del aprendizaje profundo (deep learning) consiste en transformar datos en espacios matemáticos donde se puedan encontrar correlaciones útiles. Las redes neuronales artificiales “aprenden” funciones que relacionan entradas y salidas, ajustando millones o miles de millones de parámetros. Esto ha permitido avances impresionantes en reconocimiento de imágenes, traducción automática o generación de texto. Pero el propio artículo recuerda que este proceso sigue siendo, en esencia, una forma muy sofisticada de ajuste de curvas estadísticas.

El problema aparece cuando confundimos ese éxito con entendimiento. Un sistema puede identificar que ciertas combinaciones de píxeles se parecen a un gato o que ciertas palabras suelen aparecer juntas en una frase, pero eso no significa que entienda qué es un gato o qué significa la frase. De hecho, la investigación ha demostrado que estos sistemas pueden cometer errores sorprendentes. Pequeñas modificaciones imperceptibles en una imagen pueden hacer que un modelo confunda una tostada con un rifle o un autobús con un avestruz. Para un humano, el error es absurdo; para la máquina, simplemente es otra correlación estadística que cambió ligeramente.

Esta crítica conecta con una idea que el estadístico Judea Pearl ha popularizado en los últimos años. Según Pearl, la inteligencia real requiere tres niveles de razonamiento: primero, reconocer asociaciones en los datos; segundo, entender qué ocurre cuando intervenimos en el mundo; y tercero, imaginar escenarios que no han ocurrido. La mayoría de los sistemas actuales de aprendizaje automático operan casi exclusivamente en el primer nivel: asociaciones estadísticas.

Aquí es donde la visión de Fei-Fei Li y LeCun (entre otros) empieza a cobrar sentido. Ambos han insistido durante años en que la inteligencia artificial no puede limitarse a predecir la siguiente palabra o el siguiente pixel. El mundo no está hecho de texto ni de imágenes aisladas, sino de objetos, espacio, movimiento y causalidad. Para construir sistemas realmente inteligentes se necesitan modelos del mundo, capaces de representar cómo interactúan las cosas en el entorno físico.

Este cambio de enfoque tiene implicaciones enormes. Significa pasar de sistemas entrenados masivamente con datos estáticos a sistemas que aprenden continuamente interactuando con su entorno, algo mucho más cercano a cómo aprenden los humanos. También implica desarrollar inteligencia espacial, comprensión de la física básica y aprendizaje acumulativo en tiempo real. En campos como la robótica, la conducción autónoma o la simulación de entornos complejos, este tipo de inteligencia podría ser mucho más relevante que los actuales modelos generativos.

Con estas ideas en mente es como llego esta semana al GTC 2026 de Nvidia, el evento de tecnología más importante del mundo en computación acelerada, inteligencia artificial y robótica. Nvidia ha sido uno de los grandes beneficiarios del boom de la IA generativa gracias a la enorme demanda de GPUs para entrenar modelos gigantescos. Pero al mismo tiempo, la industria empieza a preguntarse si la próxima gran etapa de la inteligencia artificial no requerirá otro tipo de enfoques: menos predicción estadística y más comprensión del mundo.

A lo largo de esta semana seguiré platicando con colegas investigadores, empresas y desarrolladores mientras seguimos pensando ese futuro. ¿Seguirá dominando la inteligencia artificial generativa o veremos una transición hacia sistemas capaces de aprender del mundo físico y razonar sobre él? Es una pregunta abierta.

Jensen Huang ha explicado la IA como un “pastel” o stack de cinco capas: energía, chips y cómputo, infraestructura de centros de datos o nube, modelos de IA y, hasta arriba, aplicaciones. Su punto es que la IA no debe verse solo como software o como chatbots, sino como una nueva infraestructura industrial completa, donde cada capa depende de la anterior: sin energía no hay cómputo, sin cómputo no hay centros de datos, sin esa infraestructura no se entrenan ni despliegan modelos, y sin modelos no aparecen aplicaciones con valor económico real.

Para Jensen, la mayor derrama económica y social estará en la capa de aplicaciones, pero el gran negocio y la gran transformación exigen construir y operar todo el sistema de extremo a extremo. Como lo he dicho varias veces, hay que hacer ese pastel más grande y no pelearnos por las migajas. Al final de la semana les contaré con más claridad qué fue lo que realmente pude entender mejor en este nuevo capítulo de la inteligencia artificial.

La siguiente frontera de la inteligencia artificial no está en el texto, sino en cómo modelamos la realidad

Significa pasar de sistemas entrenados masivamente con datos estáticos a sistemas que aprenden continuamente interactuando con su entorno, algo mucho más cercano a cómo aprenden los humanos.

COLUMNAS ANTERIORES