Ciberseguridad

Claude encontró 10.000 fallos críticos en un mes y los humanos no dan abasto

Susan Hill

Un modelo de Anthropic que aún no se ha hecho público ha localizado más de diez mil vulnerabilidades de gravedad alta o crítica en un solo mes, sobre el código de alrededor de cincuenta organizaciones asociadas. El modelo, conocido internamente como Claude Mythos Preview, fue apuntado a librerías de código abierto, navegadores e infraestructura que sostiene buena parte del internet moderno. El resultado da la vuelta a una ecuación que llevaba décadas vigente en seguridad informática. Encontrar los fallos ha dejado de ser la parte difícil del trabajo. Lo difícil ahora es arreglarlos.

El programa se llama Project Glasswing y Anthropic lo lanzó aproximadamente un mes antes de publicar esta primera tanda de números. Medio centenar de organizaciones aceptaron escanear su propio código de producción con el modelo. Cloudflare lo soltó sobre sus sistemas críticos y obtuvo alrededor de dos mil incidencias, cuatrocientas de ellas calificadas como altas o críticas. Mozilla lo puso a trabajar contra Firefox y destapó 271 fallos distintos de cara a la próxima gran versión del navegador, más de diez veces lo que el mismo equipo había sacado en la versión anterior con Claude Opus 4.6, el modelo público.

Qué significan esas cifras depende del software que uses. El modelo descubrió un fallo de falsificación de certificados en wolfSSL, una librería de criptografía que vive dentro de miles de millones de routers domésticos, hubs domóticos y controladores industriales. La vulnerabilidad ya tiene identificador CVE, CVE-2026-5194, y el parche está distribuyéndose. El mismo barrido sobre más de mil proyectos de código abierto arrojó unas 6.202 incidencias graves o críticas. No son hallazgos académicos sobre bancos de pruebas. Son fallos en el código real que maneja tus conexiones cifradas, tus pestañas del navegador y las máquinas al otro lado del cable.

Mythos Preview no es una versión de Claude que se pueda comprar. Anthropic ha decidido no publicarla. La empresa argumenta que el mismo modelo que encuentra vulnerabilidades a esta escala se convertiría, en las manos equivocadas, en una fábrica industrial de exploits. «Ninguna compañía», afirma el anuncio, «ha desarrollado salvaguardas lo bastante sólidas para impedir que estos modelos sean usados de forma maliciosa». Por ahora Mythos Preview vive dentro de un programa controlado, con socios verificados y un canal coordinado de divulgación.

¿Qué tipo de errores está encontrando el modelo? Errores de gestión de memoria en librerías de C y C++, fallos de gestión de certificados como el de wolfSSL, errores de lógica en implementaciones de protocolos de red y huecos de autenticación en servicios muy desplegados. Son las categorías que han causado décadas de brechas reales. El UK AI Security Institute señala que Mythos Preview es el primer modelo que ha conseguido resolver de extremo a extremo sus dos simulaciones de polígono cibernético, entornos controlados que imitan flujos de ataque completos. La firma independiente XBOW lo calificó como un «salto significativo» respecto al trabajo anterior, con lo que describió como «una precisión absolutamente sin precedentes».

La siguiente pregunta, para cualquiera que haya trabajado con escáneres automáticos, es cuántos de esos hallazgos son reales. Firmas de seguridad independientes revisaron 1.752 de los informes calificados como altos o críticos. Alrededor del 90,6 por ciento, 1.587, resultaron ser vulnerabilidades legítimas. Es una señal mucho más limpia que la tasa típica de ruido del fuzzing o las herramientas de búsqueda por patrones, y Cloudflare aseguró que la tasa de falsos positivos del modelo, en sus propias pruebas, era mejor que la de los miembros humanos de su equipo de red team. Pero sigue significando que uno de cada diez avisos es falsa alarma. A esta escala son cerca de mil no-bugs en la pila, cada uno de ellos un texto que alguien humano todavía tiene que leer y descartar.

El problema más difícil es lo que pasa una vez se notifica un fallo real. En el momento de esta primera actualización, solo 75 de las 530 vulnerabilidades altas o críticas comunicadas a los mantenedores estaban parcheadas. El arreglo medio tarda en torno a dos semanas. Algunos mantenedores de código abierto, según se informa desbordados, han pedido a Anthropic que reduzca el ritmo de divulgación. «El progreso en seguridad del software solía estar limitado por la rapidez con la que podíamos encontrar nuevas vulnerabilidades», escribe la empresa. «Ahora está limitado por la rapidez con la que podemos verificarlas, comunicarlas y parchearlas».

Para un usuario corriente, la conclusión práctica no es glamurosa. El software que utilizas hoy, quizá el propio navegador en el que se ha cargado esta página, casi con seguridad contiene fallos críticos que una inteligencia artificial ya conoce y que los humanos aún no han corregido. La divulgación coordinada asume que el parche llega antes que el anuncio público, y ese orden solo se mantiene cuando los parches llegan a tiempo. Project Glasswing, de momento, está anclado en Estados Unidos y Reino Unido. Cloudflare, Mozilla, el UK AI Security Institute y XBOW son los participantes con nombre y apellidos. No existe un programa equivalente de divulgación coordinada en la mayoría de los demás países. Que los fallos detectados en stacks de software brasileños, indios, japoneses o coreanos reciban la misma urgencia es una pregunta abierta.

Anthropic afirma que Project Glasswing se está ampliando a más socios. El modelo Mythos Preview sigue fuera del mercado, y la empresa no ha dado calendario para una publicación pública; cualquier despliegue más amplio requeriría, según su propio criterio actual, salvaguardas que aún no existen. Se espera una segunda actualización más adelante en 2026. La métrica que conviene seguir no será cuántos fallos puede encontrar una IA. Será cuántos de ellos han tenido tiempo de arreglar los humanos al otro lado.

Debate

Hay 0 comentarios.