Hay momentos en los que la tecnología deja de ser una lista de especificaciones y se convierte en una invitación personal: “ven, mételes mano”. Eso me pasó estos días con NVIDIA Nemotron 3 Nano. Llevo décadas trabajando en robots de servicio, en visión por computadora, y en el diseño de sistemas multiagentes (tanto en investigación como en aula), donde varios módulos cooperan —percibir, decidir, ejecutar, verificar— para que un robot no sólo “vea”, sino que actúe con intención. Y, seamos honestos: querer seguirle el paso al estado del arte es brutalmente exigente… pero también brutalmente emocionante.
La emoción tiene una razón concreta: Nemotron 3 Nano no es “otro modelo más”, sino una pieza diseñada con obsesión por el trade-off que realmente importa en sistemas reales: capacidad + velocidad + apertura. En los reportes públicos se describe como un modelo MoE (Mixture-of-Experts) con arquitectura híbrida Mamba-Transformer, pensado para agentes y para razonar sobre secuencias largas con alta eficiencia. Y sí: presume un contexto nativo de hasta 1 millón de tokens, algo que cambia la conversación cuando tu problema real no es contestar una pregunta aislada, sino sostener tareas largas, multi-documento y multi-paso —exactamente el terreno natural de los sistemas multiagentes inteligentes.
Además, no es sólo narrativa de marketing: aparece con fuerza en comparativas externas como Artificial Analysis, donde se le atribuye un 52 en el Intelligence Index (en su clase de tamaño) y un enfoque notable en “openness” y eficiencia. Y en la comunicación pública alrededor del lanzamiento se insistió en esa triada rara de encontrar junta: inteligencia sólida, licencia abierta y alto rendimiento en un paquete compacto.
Por eso quise probarlo como debe probarse cuando uno hace robótica y sistemas inteligente: sin NIM, sin “microservicio mágico” que corre en otro lado, sin depender de que la nube me haga el favor. Mi interés era ejecutarlo todo dentro de mi Spark, porque cuando estás construyendo pipelines de visión y agentes (y enseñándolos), lo que importa es poder iterar, instrumentar, medir, cambiar, romper y volver a ensamblar. Y porque —haciendo cuentas de ingeniería— debe jalar.
Así que ahí estuve: dos días a fondo. Con un detalle que me da risa y orgullo a la vez, terminé haciendo pruebas de percepción con la cámara de la Mac (sí, jajaja), conectándola como sensor para alimentar el flujo de visión y mantener vivo el espíritu de laboratorio. Ese tipo de improvisación no es un chiste: es, de hecho, la esencia de la innovación aplicada. Cuando tienes una hipótesis (Nemotron puede ser el motor de razonamiento y coordinación de agentes) y un entorno (Spark + visión), lo que sigue es experimentar hasta que el sistema se sostenga.
¿Y por qué digo “casi lo logro”? Porque en el mundo real, el diablo vive en la fricción: compatibilidades, builds, drivers, runtimes, toolchains. Nemotron 3 Nano se liberó con un énfasis explícito en que sea utilizable por la comunidad (pesos, recetas, tooling, disponibilidad en Hugging Face y guías de despliegue), y eso es una excelente noticia para quien construye, no sólo consume. Pero “abierto” no significa “sin trabajo”: significa que el trabajo es posible, verificable y reproducible.
Y aquí viene lo importante para México y para cualquier ecosistema que quiera producir robótica de servicio competitiva: estos modelos, cuando se vuelven accesibles y eficientes, pueden funcionar como cerebro de coordinación de pipelines multiagentes donde la visión no sólo detecta, sino que conversa con planificación, memoria, herramientas y verificación. En otras palabras: pasamos de “tengo un detector” a “tengo un sistema que opera”. Esa transición —de componente a sistema— es donde históricamente se ganan o se pierden las aplicaciones en campo: hospitales, campus, hoteles, fábricas, logística, inspección, asistencia. Y por eso me obsesiona “meterle mano”: porque la robótica no se trata de demos bonitos; se trata de robustez.
NVIDIA, además, está empujando Nemotron 3 como familia (Nano, Super, Ultra) justo en un momento donde el mundo se debate entre modelos cerrados y modelos abiertos, y donde la confianza, la auditabilidad y la personalización no son caprichos académicos, sino requisitos de negocio y de gobierno. Ese contexto geopolítico y de mercado también explica por qué esta apuesta importa.
La magia de la tecnología —y, sobre todo, del open source— es que te devuelve esa sensación de juventud intelectual: la curiosidad intacta, las ganas de meter las manos al sistema y la emoción de ver algo nuevo cobrar vida. Gracias a empresas como NVIDIA, que apuestan por abrir modelos, herramientas y metodología, cualquiera puede volver a sentirse joven: no por la edad, sino por la capacidad de aprender, construir y asombrarse otra vez.
Cierro con una invitación honesta (y muy práctica): si alguien ya logró correr Nemotron 3 Nano completamente local en una Spark (sin NIM), me interesa conocer el stack exacto y las decisiones de despliegue.
Yo seguiré, porque esto no es una moda: es el tipo de herramienta que puede acelerar —de verdad— la siguiente generación de robots de servicio con visión y multiagentes: hacer IA y robótica inteligente no es disfrazar robots chinos y presumirlos como nuestras creaciones, es crear y para eso, y para quienes llevamos años en esto, no es “hype”: es una razón para desvelarse con gusto y compartir.