Claude Fable 5 auditó el código abierto y halló más de 10.000 fallos

Un fallo permaneció intacto durante 27 años dentro de OpenBSD, uno de los sistemas operativos en los que confían bancos, cortafuegos y los servidores que sostienen los sitios web cotidianos. Cualquiera capaz de alcanzar la máquina a través de una red podía hacerla caer, y durante casi tres décadas nadie lo advirtió. Un modelo de Anthropic llamado Mythos sí lo hizo. Ahora ese modelo tiene una cara pública: Anthropic liberó Claude Fable 5, la primera versión de su sistema más capaz que cualquiera puede registrarse para usar.

Lo que vuelve a Fable 5 digno de atención no es una posición en un ranking. Es que el modelo que tiene debajo lee software como un auditor veterano lee un contrato, hasta dar con la única cláusula que lo rompe todo. Dentro de un programa de investigación que Anthropic llama Project Glasswing, la versión preliminar recorrió más de mil proyectos de código abierto, el código libre y compartido que mueve buena parte de internet, y marcó más de 23.000 incidencias. Más de 10.000 resultaron lo bastante graves como para clasificarse como altas o críticas.

El detalle que inquietó incluso a los propios investigadores de Anthropic es que nadie le enseñó al modelo a hacer esto. La empresa sostiene que la capacidad de encontrar y explotar debilidades nunca fue un objetivo de entrenamiento: surgió por sí sola a medida que el modelo razonaba mejor sobre el código. FFmpeg es el ejemplo más claro. Un fallo llevaba 16 años escondido en ese software de procesamiento de vídeo, el motor que hay detrás de innumerables aplicaciones de streaming y reproductores, alojado en una línea de código que las herramientas de prueba automática habían ejecutado cinco millones de veces sin advertir nunca el peligro. El modelo lo advirtió.

Para la mayoría de la gente, nada de esto se ve. El software que auditó Mythos es infraestructura invisible: el motor del navegador, el núcleo del sistema operativo, la biblioteca de medios enterrada dentro de un teléfono. Pero lo invisible es justamente el problema. Los fallos que sacó a la luz habían sobrevivido porque vivían en código demasiado viejo, demasiado tedioso o demasiado profundo para que alguien siguiera releyéndolo. Una herramienta capaz de releerlo todo, sin cansancio, cambia las probabilidades para quienes mantienen los cimientos de internet y, en las manos equivocadas, para quienes querrían atacarlos.

Las cifras solo significan algo frente a una vara de medir. En CyberGym, una prueba que evalúa si un modelo puede reproducir una vulnerabilidad de seguridad real, el motor Mythos que lleva Fable obtiene un 83,1 por ciento, frente al 66,6 por ciento del anterior Claude Opus 4.6: más o menos la diferencia entre un analista junior competente y un especialista que rara vez falla. Las mejoras no se limitan a la seguridad. La empresa de analítica Hex informó de que Fable fue el primer modelo en superar el 90 por ciento en su prueba interna, y los primeros usuarios describen saltos parecidos en programación, análisis de datos y diseño de interfaces.

Luego llega el giro. El Fable 5 público no hará precisamente aquello que lo vuelve notable. Anthropic aisló cuatro áreas (ciberseguridad, biología, química y una técnica de copia conocida como destilación) y, cuando una petición se acerca a ellas, Fable entrega en silencio la conversación al modelo más antiguo y más seguro, Claude Opus 4.8. La empresa dice que esto ocurre pocas veces, y que los primeros datos muestran que al menos el 95 por ciento de las sesiones funcionan por completo con Fable. El resultado es un producto poco común: el modelo más capaz que Anthropic ha publicado, frenado a propósito para que no use su habilidad más afilada.

Ese diseño deja preguntas que el lanzamiento no responde del todo. Una barrera que se aparta el 5 por ciento de las veces sigue siendo una barrera con costuras, y la línea entre explicar cómo funciona un software y explicar cómo romperlo rara vez es nítida. Anthropic afirma que un programa externo de recompensas por fallos sumó más de mil horas sin hallar una vía universal para sortear los límites, pero esas son cifras de la propia empresa, sin revisión de ningún regulador externo. Hay además un coste que la mayoría notará primero: Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 por millón de salida (las unidades aproximadas que un modelo cobra por leer y por escribir), el doble que Opus 4.8. Y todo el que lo use cede algo más silencioso, porque Anthropic conserva ahora 30 días de datos de uso incluso para clientes que normalmente no pagan por ninguna retención, y lo presenta como defensa frente al abuso.

Por ahora, el acceso depende de cómo ya uses Claude. Los desarrolladores pueden llegar a Fable 5 de inmediato a través de la interfaz de programación de Anthropic, y una versión aparte, llamada Mythos 5, fue entregada a un grupo reducido de organizaciones aprobadas de antemano, junto con una coalición industrial que incluye a Apple, Google, Microsoft, Nvidia y la Fundación Linux, todas trabajando para parchear lo que el modelo encuentra antes de que lo hagan los atacantes. Anthropic comprometió 100 millones de dólares en créditos de modelo y 4 millones en donaciones directas a los grupos de seguridad de código abierto que realizan esa reparación.

El despliegue más amplio sigue un calendario. Los suscriptores de los planes Pro, Max, Team y Enterprise por asiento de Anthropic reciben Fable 5 sin coste adicional hasta el 22 de junio; desde el 23 de junio, usarlo consumirá créditos. Si las barreras aguantarán cuando millones de usuarios nuevos las empujen es la parte aún sin resolver. El hecho más asombroso no lo está. Una máquina ya puede leer el código que sostiene la vida moderna y encontrar las grietas que se le escaparon a todo el mundo durante una generación, y la pregunta que sigue no es si puede hacerlo, sino quién tiene derecho a pedírselo.

Etiquetas: ciberseguridad, tech-en1, Anthropic, modelos de IA, Project Glasswing, Claude Fable 5