IA

Una IA de Google resolvió problemas matemáticos que llevaban 56 años sin respuesta

Susan Hill

Un sistema de investigación de Google DeepMind ha generado demostraciones completas y verificadas por máquina para nueve problemas abiertos planteados por el matemático Paul Erdős, dos de ellos sin resolver durante 56 años. El mismo sistema cerró 44 conjeturas tomadas de la Enciclopedia en Línea de Secuencias de Enteros, resolvió una pregunta de geometría algebraica que llevaba 15 años abierta y afinó una cota conocida en optimización convexa. El recuento llamativo importa menos que el método. Cada una de estas demostraciones fue verificada por una máquina, no solo afirmada por ella.

Erdős, fallecido en 1996, dejó cientos de preguntas precisas y tercas, muchas fáciles de enunciar y brutalmente difíciles de cerrar. Con los años se convirtieron en una especie de examen permanente para la disciplina. Las conjeturas de secuencias provienen de una base de datos pública que los matemáticos rastrean en busca de patrones, donde una fórmula intuida puede quedar sin probar durante años. No son pruebas de laboratorio diseñadas para halagar a un modelo. Son el verdadero atasco de la matemática abierta.

Esa distinción lo es todo. El sistema, llamado AlphaProof Nexus, escribe sus argumentos en Lean, un lenguaje formal cuyo compilador rechaza cualquier paso que no pueda confirmar. Una demostración pasa o no pasa, sin margen para un párrafo seguro que luego resulta falso. Para quien intente juzgar si un ‘descubrimiento’ de IA es real, esa es la frontera entre una nota de prensa y un resultado.

Por dentro, el demostrador funciona sobre Gemini 3.1 Pro, con un modelo más ligero a cargo de las tareas de clasificación. El bucle es casi aburrido. El modelo redacta una prueba en Lean, el compilador devuelve los errores y esos errores alimentan el siguiente intento. Lo que mantiene la honestidad es la retroalimentación simbólica, no la prosa fluida. El equipo construyó cuatro versiones de complejidad creciente, una de ellas capaz de generar y ordenar bocetos de demostración rivales. Y aun así, la versión más simple, un mero bucle de modelo y compilador, resolvió por sí sola los nueve problemas de Erdős.

La economía es la parte silenciosamente asombrosa. Cada problema resuelto costó unos cientos de dólares en tiempo de cómputo. Preguntas que habían consumido carreras enteras se cerraron por aproximadamente el precio de una escapada de fin de semana. Esto no jubila al matemático. Alguien todavía tiene que elegir qué problemas vale la pena atacar, plantearlos en una forma que el sistema pueda leer y decidir qué significa una respuesta. Lo que cambia es la aritmética de lo que vale la pena intentar.

Las advertencias pesan más que el titular. Nueve resueltos de 353 problemas de Erdős intentados es una tasa de acierto de en torno al 2,5 por ciento. La cifra de secuencias, 44 de 492, queda por debajo del nueve por ciento. Los autores reconocen sin rodeos que la mayoría de estos problemas siguen fuera de alcance, y más aún los que exigen teoría nueva y extensa, y que los aciertos se concentran donde la biblioteca matemática de Lean ya es profunda. Sin ese andamiaje construido por humanos y sin la lista curada de objetivos, al sistema le queda poco terreno firme.

La cautela está justificada. En un episodio muy ridiculizado, un laboratorio rival anunció que su modelo había resuelto diez problemas de Erdős, hasta que los matemáticos señalaron que las respuestas ya figuraban en la literatura publicada. El modelo las había encontrado, no demostrado. AlphaProof Nexus está diseñado para ser inmune a ese error. Una demostración en Lean de un resultado conocido sigue siendo válida, y una demostración en Lean de algo genuinamente nuevo no se puede fingir. Demis Hassabis, al frente de DeepMind, se esforzó en aclarar que el trabajo no es inteligencia artificial general, una nota inusualmente prudente en una empresa rara vez tímida con sus modelos.

Hay una recompensa más sutil que subrayan los investigadores. Incluso los fracasos sirvieron. Como cada prueba parcial se comprueba formalmente, los matemáticos pudieron ver con exactitud qué submetas lograba cerrar el sistema y cuáles no, sin revisar a mano el argumento entero. La máquina deja de ser un oráculo y se vuelve un colaborador incansable que muestra su trabajo y señala dónde sigue escondida la parte difícil.

El resultado no llega solo. Coincide con otra afirmación de un modelo de razonamiento rival, que según se informó refutó una conjetura de Erdős de unos 80 años en geometría discreta, un hallazgo que matemáticos en activo refinaron y respaldaron. Dos laboratorios, dos métodos, uno apoyado en la verificación formal y el otro en cadenas de razonamiento en bruto, llegaron a la misma frontera con semanas de diferencia. La competencia ya no va de chatbots que suenan ingeniosos.

El trabajo se detalló en un artículo publicado este mes, y los métodos se apoyan en herramientas abiertas, en concreto Lean y su biblioteca construida por la comunidad, de modo que grupos externos pueden inspeccionar y reejecutar las demostraciones en lugar de creer a un blog corporativo. DeepMind no ha dicho si el sistema llegará a investigadores ajenos a la empresa. La cifra que conviene vigilar no es nueve. Es si ese 2,5 por ciento se convierte en diez, y luego en veinte, porque el día en que ocurra, la discusión sobre para qué sirven estas máquinas tendrá que empezar de cero.

Debate

Hay 0 comentarios.