
Un equipo de Princeton ha publicado un agente IA que supera en precisión a sistemas diez veces más caros en pruebas formales de matemáticas de alto nivel.
Demostrar teoremas matemáticos de forma automática es uno de los problemas más difíciles de la inteligencia artificial. No porque los modelos no sepan calcular, sino porque una demostración formal exige razonamiento encadenado, sin errores, verificable por una máquina. Hasta ahora, los sistemas que lo conseguían tenían un coste prohibitivo.
Un equipo del Laboratorio de Lenguaje e Inteligencia de Princeton (PLI) acaba de cambiar esa ecuación.
Qué es Goedel-Architect y qué ha logrado
Goedel-Architect es un marco de trabajo basado en agentes IA diseñado específicamente para demostración formal de teoremas. Su nombre rinde homenaje a Kurt Gödel, quien pasó sus últimos años en el Instituto de Estudios Avanzados de Princeton.
Los resultados publicados son difíciles de ignorar. En el banco de pruebas PutnamBench —672 problemas extraídos de la competición matemática William Lowell Putnam— el sistema alcanzó una tasa de resolución del 75,6 % con un coste total de API de 294 dólares.
El sistema competidor más cercano, Hilbert, utiliza el modelo de lenguaje de Google Gemini 2.5 Pro y completó el mismo banco de pruebas con un coste aproximado de 170.000 dólares. La diferencia es de unas 500 veces. Y aun así, Hilbert obtuvo una tasa inferior: el 70,0 %.
La arquitectura detrás del resultado
El modelo de lenguaje que alimenta Goedel-Architect es DeepSeek-V4-Flash, la versión más reciente del modelo de código abierto de la empresa china DeepSeek. Pero la eficiencia no viene solo del modelo base: viene de cómo está construido el sistema alrededor de él.
La innovación central se llama blueprint (plano estructural). Antes de intentar cualquier demostración, el agente genera un grafo acíclico dirigido que especifica todas las definiciones y lemas necesarios, junto con sus dependencias. Cada nodo no demostrado se envía en paralelo a instancias del verificador formal Lean.
Cuando un nodo falla, el sistema no se detiene: produce un informe de diagnóstico que identifica si la proposición es falsa, si es demasiado compleja para el estado actual, y qué correcciones podrían funcionar. Ese informe retroalimenta el plano, que evoluciona en rondas sucesivas. Las demostraciones que funcionan se conservan; los nodos fallidos se descomponen o se reemplazan.
Es un ciclo de refinamiento iterativo que imita, en cierta medida, cómo trabaja un matemático real: planificar, intentar, diagnosticar el fallo y replantear.
Los números en otros bancos de pruebas
El equipo validó el sistema en cinco conjuntos de pruebas distintos. Los más relevantes:
- En MiniF2F-test, con 244 problemas de matemáticas de competición de nivel preuniversitario, Goedel-Architect resolvió 242 en el primer intento (99,2 %). Con asistencia en lenguaje natural, fue el primer sistema en resolver todos los problemas del conjunto.
- En los problemas de la Olimpiada Internacional de Matemáticas 2025, resolvió 4 de los 6 enunciados.
- En Putnam 2025, resolvió 11 de los 12 problemas.
Son cifras notables en un dominio donde hasta hace poco los sistemas automatizados apenas arañaban la superficie de los problemas de competición.
Quién está detrás del proyecto
El laboratorio PLI está codirigido por Sanjeev Arora, teórico de la complejidad computacional y premio ACM 2011, y por Danqi Chen, profesora de Princeton con más de 90.000 citas en Google Scholar y formación en la Universidad de Tsinghua. No es un equipo improvisado.
El hecho de que hayan optado por DeepSeek-V4-Flash —un modelo de código abierto— como columna vertebral del sistema tiene implicaciones claras: la eficiencia proviene de la arquitectura del agente, no del acceso a recursos computacionales exclusivos.
Por qué nos parece relevante más allá de las matemáticas
Lo que demuestra Goedel-Architect no es solo que se pueden resolver problemas del Putnam por menos de 300 dólares. Demuestra que el diseño del sistema importa tanto o más que el modelo subyacente.
Hemos visto esta misma lógica repetirse en otros dominios: un agente bien estructurado, con ciclos de diagnóstico y refinamiento, supera a un modelo más potente usado de forma directa. El coste no es solo económico; es también una señal de eficiencia arquitectónica.
Para quienes trabajamos con agentes IA aplicados a tareas complejas —generación de contenido estructurado, análisis, automatización de procesos— el enfoque de plano estructural con diagnóstico de fallos es una referencia que vale la pena estudiar.
No todo problema es una demostración matemática. Pero la lógica de planificar, ejecutar en paralelo, diagnosticar y refinar es transferible.
Fuente original
Pandaily: DeepSeek V4 Powers Goedel-Architect: 500x Cost Advantage in Formal Theorem Proving
Sigue leyendo
Artículos relacionados.

Un año de ciberamenazas con IA: qué hemos aprendido analizando los patrones reales
Anthropic publicó un análisis exhaustivo de amenazas cibernéticas habilitadas por IA. Estas son las conclusiones más relevantes para entender el riesgo real.

Proteus, Stark y Vulcan: así renueva Amazon su flota de robots logísticos
Amazon presentó en Londres su nueva generación de robots autónomos con IA integrada. Te contamos qué cambia y qué significa para el sector logístico.

De la co-inteligencia a la co-existencia: trabajar con IA que a veces te supera
El investigador Ethan Mollick anuncia un nuevo libro sobre cómo prosperar junto a una IA que ya supera a los humanos en tareas concretas, sin ser aún perfecta.
Publicado el 6 de junio de 2026