Google detecta el primer exploit zero-day creado con IA

Google ha detectado el primer ciberataques con IA confirmado por un informe interno. El equipo Google Threat Intelligence (GTIG) interceptó un exploit zero-day diseñado por modelos de lenguaje justo antes de su despliegue masivo. La operación, que afectaba a una herramienta de administración web de código abierto, fue desactivada antes de causar daños.

Los investigadores descubrieron el exploit analizando patrones anómalos en el código. El script en Python contenía señales inequívocas de haber sido generado por un LLM: alucinaciones técnicas como una puntuación CVSS inventada, una estructura de docstrings educativa y menús de ayuda excesivamente detallados. Ningún atacante humano escribe código criminal con ese nivel de documentación académica. Google ha compartido su análisis completo en el blog oficial de seguridad para que la comunidad pueda entender las señales que delatan a una IA en un ataque.

Cómo la IA detectó una vulnerabilidad oculta

El ataque se centraba en vulnerar la ciberseguridad bancaria mediante la autenticación en dos pasos (2FA) de una herramienta de gestión web. La IA identificó un fallo concreto en la lógica del sistema 2FA: el desarrollador había programado una suposición de confianza directamente en el código, un error que pasó desapercibido para las herramientas de seguridad tradicionales.

El exploit habría permitido a los atacantes acceder a cuentas protegidas incluso con contraseñas válidas. Google trabajó con el proveedor afectado para cerrar la brecha antes de que se ejecutara el evento de explotación masiva que los hackers ya tenían planificado. Aunque el código parece generado por IA, Google afirma que no hay evidencia de que se usara Gemini para esta tarea. La compañía señala que los atacantes probablemente emplearon modelos de código abierto alojados en sus propios servidores, lo que complica aún más la trazabilidad forense.

HexStrike y Strix: los frameworks agénticos detrás de los ciberataques con IA

El informe del GTIG revela que grupos de hackers vinculados a China y Corea del Norte están desplegando frameworks agénticos como HexStrike y Strix. Estas plataformas utilizan sistemas multiagente que automatizan fases enteras del ciclo de un ciberataques con IA con supervisión humana mínima. Se trata de una evolución significativa respecto a los métodos tradicionales de ataque manual.

Según el informe, los atacantes llevan meses usando modelos de lenguaje para tareas que antes requerían mucho tiempo humano. La IA les permite generar jerarquías detalladas de empresas objetivo, identificar qué hardware usa una persona concreta antes de desarrollar un exploit, o crear señuelos de phishing específicos para empleados con acceso a datos sensibles. El informe también menciona que estos grupos han empezado a entrenar modelos propios con datos de vulnerabilidades reales, aumentando la tasa de éxito de los exploits generados.

Para saltarse las barreras de seguridad de los LLMs, los hackers recurren al jailbreaking mediante personajes falsos. Crean instrucciones en las que la IA adopta el rol de un experto en seguridad, y algunos grupos llegan a alimentar los modelos con repositorios enteros de vulnerabilidades conocidas. El objetivo es afinar la fiabilidad de los payloads antes de lanzarlos contra el verdadero objetivo. Google documentó al menos cuatro grupos distintos usando esta técnica desde principios de año.

Puntos clave del nuevo panorama de amenazas

Google confirma que el uso de la inteligencia artificial en operaciones ofensivas ha dejado de ser experimental. La fase de reconocimiento se ha automatizado hasta niveles industriales. Los atacantes ya no necesitan semanas para mapear la infraestructura de una empresa: la IA lo hace en horas. Los equipos de defensa se enfrentan ahora a un nuevo rival que no descansa, no comete errores de principiante y aprende de cada intento fallido.

La facilidad para generar exploits personalizados reduce drásticamente la barrera de entrada para ciberdelincuentes con menos conocimientos técnicos. Además, los modelos permiten iterar y depurar código malicioso mucho más rápido que un equipo humano. El ciberataques con IA ya no es una posibilidad futura, sino una realidad operativa documentada que obliga a actualizar los protocolos de detección en todas las organizaciones, desde pymes hasta grandes corporaciones.

El impacto en la estrategia de defensa digital

El hallazgo de Google obliga a replantear las estrategias de defensa digital. Los sistemas de detección tradicionales, basados en firmas y patrones conocidos, no están preparados para identificar exploits generados mediante modelos de lenguaje. La variabilidad y creatividad del código creado por IA supera los filtros convencionales, lo que exige un enfoque nuevo basado en análisis conductual e inteligencia de amenazas en tiempo real.

Google ya ha empezado a integrar sus propios modelos de IA en los sistemas de detección de Google Cloud para combatir esta nueva generación de amenazas. El modelo Mythos de Anthropic también está siendo evaluado por el GTIG como posible herramienta de defensa. La empresa ha compartido sus hallazgos con el NCSC británico y el equipo de ciberseguridad de la OTAN, porque esta amenaza no entiende de fronteras.