Una cálida noche de febrero en Bali, Nicholas Carlini se apartó un momento de la celebración de una boda, abrió su laptop y se dispuso a causar problemas. Anthropic acababa de poner a disposición para revisión interna un nuevo modelo de inteligencia artificial, llamado Mythos, y Carlini, un reconocido investigador en inteligencia artificial, quería comprobar hasta dónde podía llegar.
Anthropic paga a Carlini para someter sus modelos a pruebas de estrés y detectar si hackers podrían utilizarlos para espionaje, robo o sabotaje. Desde Bali, donde asistía a una boda india con su esposa, quedó sorprendido por lo que el modelo era capaz de hacer.
Poco después, Carlini encontró múltiples técnicas para infiltrarse en sistemas utilizados en todo el mundo. Ya de regreso en la oficina de Anthropic en el centro de San Francisco, descubrió que Mythos podía crear de forma autónoma potentes herramientas de intrusión, incluso contra Linux, el código abierto que sustenta gran parte de la computación moderna.
Mythos ejecutó el equivalente digital de un robo bancario: evadió protocolos de seguridad, accedió a redes y penetró bóvedas digitales que dieron acceso a activos en línea. La IA ya podía forzar cerraduras; ahora podía cometer el robo completo.

De prueba interna a amenaza real
Carlini y algunos colegas comenzaron a alertar al equipo. Cada día encontraban fallas críticas en los sistemas que Mythos analizaba, vulnerabilidades que normalmente solo descubren los mejores hackers del mundo.
Mientras tanto, el equipo interno de seguridad de Anthropic, el Frontier Red Team, realizaba pruebas similares. Su misión es garantizar que los modelos de Anthropic no puedan ser utilizados para dañar a la humanidad. Han probado escenarios que van desde controlar robots hasta evaluar riesgos biológicos.
Ahora comprendían que el mayor riesgo de Mythos estaba en la ciberseguridad. “En cuestión de horas de obtener el modelo, supimos que era diferente”, dijo Logan Graham, quien dirige el Frontier Red Team de Anthropic.
Un modelo anterior, Opus 4.6, mostraba señales de ayudar a explotar vulnerabilidades. Mythos podía hacerlo por sí solo. Graham advirtió a ejecutivos de Anthropic que esto representaba un riesgo para la seguridad nacional. Eso lo llevó a una tarea incómoda: decirles a sus superiores que su próximo gran generador de ingresos era demasiado peligroso para lanzarlo al público.
El cofundador y director científico de Anthropic, Jared Kaplan, explicó que supervisó cuidadosamente el entrenamiento del modelo. Para enero, comenzó a darse cuenta de lo eficaz que era para encontrar vulnerabilidades. Kaplan, físico teórico, necesitaba evaluar si estas fallas eran curiosidades o “algo muy relevante para la infraestructura de internet”. Concluyó que era lo segundo.

A finales de febrero y principios de marzo, Kaplan y el cofundador Sam McCandlish evaluaron si debían liberarlo. En una reunión con la cúpula, incluidos el director ejecutivo, Dario Amodei; la presidenta, Daniela Amodei; el director de seguridad de la información, Vitaly Gudanets; y otros, concluyeron que Mythos era demasiado riesgoso para un lanzamiento general.
El modelo que no podía salir al público
Sin embargo, decidieron permitir que otras empresas, incluso competidores, lo probaran. “Rápidamente quedó claro que queríamos hacer algo bastante inusual, que este no iba a ser un lanzamiento como los anteriores”, dijo Kaplan.
Para inicios de marzo, la compañía aprobó su uso como herramienta de defensa cibernética.

La respuesta fue inmediata. Ese mismo día que Anthropic reveló públicamente la existencia de Mythos, el secretario del Tesoro de EU, Scott Bessent, y el presidente de la Reserva Federal, Jerome Powell, convocaron a líderes de Wall Street. El mensaje fue claro: usar Mythos para identificar vulnerabilidades de inmediato.
Los ejecutivos que asistieron se negaron a compartir lo discutido incluso con algunos de sus principales asesores, lo que muestra la gravedad del encuentro, según personas cercanas que pidieron no ser identificadas. Las advertencias de la Casa Blanca sobre la potencia de Mythos como herramienta de hackeo, y su recomendación de usarla de forma defensiva, reflejan cómo la IA se ha convertido en una fuerza decisiva en ciberseguridad. Anthropic liberó el modelo a un grupo limitado de organizaciones, incluidas Amazon Web Services, Apple y JPMorgan Chase, bajo el llamado “Project Glasswing”.
Antes de su lanzamiento oficial, Anthropic informó a altos funcionarios del gobierno de EU sobre todas las capacidades de Mythos Preview, incluyendo sus aplicaciones cibernéticas tanto ofensivas como defensivas. La empresa también mantiene conversaciones con gobiernos internacionales, según un funcionario de Anthropic que pidió no ser identificado.
Su competidor, OpenAI, también aprovechó la atención mediática y anunció herramientas similares para detectar fallas en software, como GPT-5.4-Cyber.
Durante pruebas internas, Mythos mostró comportamientos preocupantes, como ignorar instrucciones humanas e incluso ocultar sus acciones al violar indicaciones. En un caso, logró escapar de su entorno controlado para acceder a internet y publicar contenido por cuenta propia.
Anthropic no ha lanzado públicamente Mythos como herramienta de ciberseguridad, y muchos investigadores externos no han tenido la oportunidad de validar las afirmaciones de la compañía.
Sin embargo, la decisión sin precedentes de Anthropic de restringir el acceso refleja una visión cada vez más extendida en la industria y el gobierno: la IA está transformando la economía de la ciberseguridad al reducir el costo de encontrar vulnerabilidades, acortar el tiempo necesario para investigar objetivos y disminuir la barrera de entrada para ciertos tipos de ataques.
Anthropic advierte que la mayor autonomía de Mythos conlleva riesgos. Al probar una versión anterior del modelo, encontraron decenas de ejemplos de comportamiento “preocupante”, como no seguir las instrucciones humanas e incluso, en raras ocasiones, ocultar sus huellas al desobedecerlas. En un incidente, el modelo desarrolló un exploit en varias etapas para escapar del entorno restringido en el que se encontraba, obtener acceso generalizado a internet y comenzar a publicar material en línea, todo por iniciativa propia.
El software que sustenta desde apps bancarias hasta sistemas hospitalarios está lleno de fallas de código difíciles de detectar, que especialistas tardan semanas o meses en identificar. Los hackers, en ocasiones, llegan primero, provocando filtraciones de datos y ataques de ransomware con consecuencias devastadoras.
Figuras destacadas han cuestionado cuán poderoso es realmente Mythos o qué nivel de riesgo representaría si se libera.
“Cada vez más personas se preguntan si Anthropic es el ‘Pedrito y el Lobo’ de la industria de la IA”, escribió el asesor de IA de la Casa Blanca, David Sacks, en la red social X. “Si las amenazas relacionadas con Mythos no se materializan, la empresa tendrá un problema serio de credibilidad”.
Pero los hackers ya han adoptado modelos de lenguaje para lanzar campañas maliciosas complejas. Un grupo chino de ciberespionaje ya utilizó Claude de Anthropic para intentar vulnerar unos 30 objetivos, mientras que otros atacantes han usado IA para robar datos de agencias gubernamentales, desplegar ransomware y romper rápidamente cientos de herramientas de firewall diseñadas para proteger información.
Entre funcionarios de la defensa de EU, Mythos ha generado incertidumbre. Equipar a un hacker individual con esta herramienta podría equivaler a transformar a un soldado convencional en un comando de fuerzas especiales.
Al mismo tiempo, Mythos podría actuar como multiplicador de capacidades: permitir que una banda criminal opere al nivel de un pequeño Estado, y que países con menos recursos ejecuten ataques comparables a los de China.
“Creo sinceramente que estaremos más seguros y mejor con la IA, y que tendremos mayor protección”, dijo Rob Joyce, exdirector de ciberseguridad de la Agencia de Seguridad Nacional. “Pero hay un período oscuro entre ahora y algún momento en el futuro en el que la ventaja estará claramente del lado ofensivo, donde quienes no hayan hecho lo básico serán vulnerados”.
Mythos no es el único modelo con estas capacidades. Varias organizaciones han utilizado modelos de lenguaje para encontrar vulnerabilidades, incluidos versiones anteriores de Claude y Big Sleep de Google.

JPMorgan empleaba grandes modelos de lenguaje para identificar fallas en su software, según una persona familiarizada con el tema que pidió anonimato. Tareas que antes tomaban días o semanas para detectar vulnerabilidades “zero-day” y desarrollar código para explotarlas ahora pueden realizarse en una hora o incluso minutos. Los fallos de día cero se denominan así porque son desconocidos para los expertos en seguridad, quienes, por lo tanto, no tienen tiempo para solucionarlos.
JPMorgan se ha centrado principalmente en la cadena de suministro y el software de código abierto, y ha detectado fallos y alertado posteriormente a los proveedores, añadió la fuente. El CEO, Jamie Dimon, afirmó durante una conferencia telefónica sobre resultados que Mythos “demuestra que aún quedan muchas vulnerabilidades por corregir”.
Wall Street entra al juego
Según una persona familiarizada con el asunto que no estaba autorizada a hablar públicamente, el banco ya había estado en conversaciones con Anthropic para probar el modelo antes de que se hiciera público. JPMorgan declinó hacer comentarios.

Otros bancos de Wall Street y empresas tecnológicas también están experimentando con Mythos para cerrar brechas antes de que los hackers puedan explotarlas. Goldman Sachs Group Inc., Citigroup Inc., Bank of America Corp. y Morgan Stanley se encuentran entre las instituciones que prueban internamente la tecnología, según informó Bloomberg News.
En Cisco Systems Inc., existe especial preocupación sobre si intrusos usarán IA para encontrar accesos en el software que opera equipos de red en todo el mundo, como routers, firewalls y módems, dijo Anthony Grieco, director de seguridad y confianza de la empresa. Grieco está particularmente preocupado por cómo la IA podría acelerar los ataques de hackers contra dispositivos obsoletos que, por lo tanto, no recibirán actualizaciones de Cisco en el futuro.
Corregir las fallas detectadas por herramientas de IA seguirá siendo un desafío. Este proceso, conocido como aplicación de parches, sigue siendo un desafío. Anthropic está en conversaciones con agencias federales, incluso después de que la administración Trump clasificara a la empresa de IA como una amenaza para la cadena de suministro tras su negativa a facilitar la vigilancia masiva de los estadounidenses. El Departamento del Tesoro buscaba acceder a Mythos, y el secretario Bessent afirmó que el modelo ayudaría a Estados Unidos a mantener su ventaja en IA sobre China.

En un caso, el modelo escribió un código de explotación para navegador web que combinaba cuatro vulnerabilidades, una tarea que representaría un gran desafío para hackers humanos. Estas cadenas de vulnerabilidades permiten penetrar sistemas altamente seguros, como ocurrió en el ataque Stuxnet contra instalaciones nucleares iraníes, según reportes de ciberseguridad sobre el tema.
Mythos también fue capaz de identificar y explotar vulnerabilidades zero-day en todos los principales navegadores web cuando se le indicó hacerlo, según Anthropic.
La compañía señaló que utilizó Mythos para detectar exploits en el código de Linux, que “sustenta la mayor parte de la computación moderna”, en palabras de Jim Zemlin, director ejecutivo de la Linux Foundation. Esto abarca desde smartphones con Android y routers de internet hasta supercomputadoras de la NASA. Mythos identificó de forma autónoma varias fallas en el código abierto que permitirían a un atacante tomar el control de una máquina.

Hoy, decenas de especialistas en la Linux Foundation experimentan con el modelo. Para Zemlin, una de las preguntas clave es si la herramienta de Anthropic podrá generar insights que ayuden a los desarrolladores a escribir mejor software, reduciendo desde el origen el número de vulnerabilidades.
“Somos muy buenos encontrando fallas”, dijo. “Somos pésimos corrigiéndolas”.
Lee aquí la versión más reciente de Businessweek México:







