Tutte le edizioni5 giugno 2026

Lumina Digest

Gli sviluppi dell'AI che contano, spiegati.

Come preferisci leggerla?

Stessa edizione, spiegata senza gergo — e altrettanto fedele. Non è un riassunto sbrigativo: un controllo indipendente verifica che la versione divulgativa resti fedele all'originale, senza perdere né alterare nulla.

Il conto dei token arriva a scadenza: nasce la Tokenomics Foundation per i costi dell'AI

La spesa in token dei modelli AI è diventata una voce di bilancio fuori controllo. La Linux Foundation lancia un organismo di standardizzazione sul modello FinOps, ma dal tavolo mancano proprio i laboratori che fissano i prezzi.

La spesa per i token dei modelli AI è diventata una voce di bilancio difficile da controllare, e l'industria corre ai ripari. Secondo TechCrunch, un'azienda avrebbe accumulato un conto Claude da circa 500 milioni di dollari per non aver imposto limiti d'uso ai dipendenti (dato riportato, l'azienda non è nominata). Sempre secondo la testata, Uber avrebbe esaurito il budget di AI coding del 2026 già ad aprile, mentre a un dipendente di Priceline il rinnovo di Cursor sarebbe tornato «4-5 volte più caro». J.R. Storment della FinOps Foundation riferisce di aziende già a tre volte il budget token dell'intero 2026.

La risposta arriva dalla Linux Foundation. Il 3 giugno ha annunciato l'intenzione di lanciare la Tokenomics Foundation, con standard aperti, benchmark e nuove metriche per misurare la spesa in token: cost-per-intelligence, tokens-per-watt e token factory effectiveness. Nasce in partnership con la FinOps Foundation ed estende la specifica FOCUS al consumo di token. Il lancio formale è atteso al FinOps X di San Diego. Tra i dodici sostenitori iniziali figurano Google Cloud, Microsoft, Oracle, IBM, SAP, Salesforce, Accenture, KPMG e JPMorgan Chase.

Il limite è strutturale. Come osserva SDxCentral, dal tavolo mancano proprio i frontier lab — OpenAI e Anthropic — che fissano i prezzi dei token. La fondazione affronta misurazione ed efficienza, non la riduzione del prezzo. Il prezzo per token cala (DeepSeek lo ha tagliato di circa il 90%), ma i conti salgono perché i volumi esplodono. Goldman Sachs stima una crescita dei consumi di 24 volte entro il 2030. Resta il nodo segnalato da Nicholas Arcolano (Jellyfish): capire se la spesa generi valore di business, cosa che molte aziende ancora non sanno misurare.

Perché conta

IMPRENDITORI: La spesa AI in token erode i margini ed è ormai una voce di procurement strategica: va legata a un valore di business misurabile, perché — avverte Arcolano — è ciò che oggi quasi nessuno sa fare. Standard condivisi aiutano a confrontare i fornitori, ma non abbassano i prezzi: la governance resta in capo all'azienda.
INGEGNERI ICT / IT MANAGER: Il caso da 500 milioni nasce dall'assenza di limiti d'uso: servono governance dei consumi, osservabilità e metriche operative come tokens-per-watt e cost-per-intelligence. La specifica FOCUS estesa ai token promette uno schema comune per confrontare la spesa tra vendor diversi e piattaforme interne.

Fonti (consultate il 2026-06-05)

TechCrunch — The token bill comes due, inside the industry scramble to manage AI's runaway costs — pubblicato il 2026-06-05
Linux Foundation — Intent to launch the Tokenomics Foundation to establish open standards for AI cost management — pubblicato il 2026-06-03
SDxCentral — Linux Foundation launches Tokenomics Foundation to standardize AI infrastructure spending — pubblicato il 2026-06-04

Ordine esecutivo USA sull'AI: vetting volontario di 30 giorni per i modelli di frontiera, niente obblighi di licenza

Trump firma "Promoting Advanced Artificial Intelligence Innovation and Security": tre pilastri — cyber federale, canale volontario di pre-rilascio, enforcement penale — e nessun obbligo di licenza, in contrasto netto con l'AI Act europeo.

Il 2 giugno 2026 il presidente Trump ha firmato l'ordine esecutivo "Promoting Advanced Artificial Intelligence Innovation and Security", che struttura l'approccio statunitense ai modelli di frontiera su tre direttrici, non solo il vetting che ha fatto notizia.

Cyber federale. Le agenzie devono rafforzare le difese di governo e infrastrutture critiche entro 30 giorni (2 luglio). Il Tesoro istituisce una "AI cybersecurity clearinghouse" per coordinare scansione e divulgazione delle vulnerabilità (analisi Latham & Watkins).

Canale volontario di pre-rilascio. Entro il 1° agosto 2026 va costruito un processo in cui gli sviluppatori possono dare al governo accesso ai "covered frontier model" fino a 30 giorni prima del rilascio ai "trusted partner". La finestra è stata ridotta dai 90 giorni di una bozza di maggio (The Register). Entrambi i termini restano indefiniti: la soglia che qualifica un modello come "di frontiera" la fissa la NSA con un benchmarking classificato.

Enforcement penale. Il procuratore generale dà priorità ai reati commessi usando l'AI per accessi informatici illeciti.

L'ordine esclude esplicitamente "qualsiasi licenza, pre-clearance o permesso obbligatorio" per sviluppare o rilasciare modelli. Ma la discrezionalità su chi sia "trusted partner" preoccupa gli analisti. Il Cato Institute teme un uso "contro le aziende in conflitto con l'amministrazione", mentre il Council on Foreign Relations ricorda che "il governo non può valutare ciò che non vede". È l'opposto dell'AI Act europeo, che presume rischio sistemico oltre i 10^25 FLOP e impone obblighi.

Perché conta

IMPRENDITORI: Gli Stati Uniti scelgono la via volontaria e deregolamentata: nessun obbligo di licenza o pre-clearance per immettere un modello sul mercato, un carico di compliance più leggero rispetto all'AI Act europeo. Il rovescio è la discrezionalità su chi sia "trusted partner" e su quali modelli siano "di frontiera", che introduce un rischio politico — gli analisti temono favoritismi o ritorsioni verso aziende sgradite.
INGEGNERI ICT / IT MANAGER: La "AI cybersecurity clearinghouse" del Tesoro e l'hardening federale entro 30 giorni ridisegnano il coordinamento sulle vulnerabilità, ma la soglia di "covered frontier model" resta classificata e indefinita: pianificare governance e tempi di rilascio diventa incerto. E come notano gli esperti, trovare le falle è la parte facile — il patching consistente resta il collo di bottiglia operativo.

Fonti (consultate il 2026-06-05)

White House — testo dell'ordine esecutivo "Promoting Advanced Artificial Intelligence Innovation and Security" — pubblicato il 2026-06-02
Latham & Watkins — Client Alert sull'ordine esecutivo
The Register — l'ordine fissa la revisione a 30 giorni (ridotta dai 90 della bozza) — pubblicato il 2026-06-02
Council on Foreign Relations — analisi critica dell'ordine

Vedi anche

Un config.json malevolo esegue codice in Hugging Face Transformers, aggirando trust_remote_code

CVE-2026-4372: un singolo campo di configurazione trasforma il caricamento di routine di un modello in esecuzione di codice, senza avvisi né prompt. Corretta in Transformers 5.3.0.

Una falla critica in Hugging Face Transformers, la libreria su cui poggia gran parte degli stack di machine learning, permetteva di eseguire codice arbitrario sul sistema della vittima. Bastava il normale caricamento di un modello. Tracciata come CVE-2026-4372 (CVSS 7.8, fonte huntr.dev; valutazione NIST ancora in corso), la vulnerabilità è stata scoperta dal ricercatore Yotam Perkal di Pluto Security e segnalata a Hugging Face a febbraio 2026.

Il meccanismo, ricostruito nell'analisi di CSO Online, ruota attorno a un campo della configurazione, _attn_implementation_internal: inserito in un config.json malevolo, punta a un repository controllato dall'attaccante sull'Hub di Hugging Face. Quando la vittima invoca la API standard from_pretrained(), il componente hub_kernels.py del pacchetto opzionale kernels interpreta quel valore come riferimento a un "kernel" e ne scarica ed esegue il codice Python. Tutto questo senza sandboxing, senza firma del codice, senza verifica di integrità e senza alcun prompt all'utente. La protezione attesa, trust_remote_code=false, viene aggirata perché il campo è processato durante la deserializzazione della config, prima che il flag venga valutato.

L'esposizione è ampia: secondo SiliconANGLE le versioni interessate vanno dalla 4.56.0 alla 5.2.x quando è installato kernels, con codice vulnerabile presente da agosto 2025. Transformers conta oltre 2,2 miliardi di installazioni totali e le release vulnerabili venivano ancora scaricate 7-8 milioni di volte a settimana, circa un quarto del totale. Il caveat che limita lo sfruttamento — la necessità del pacchetto kernels — pesa poco negli ambienti enterprise e nei cluster GPU, dove le dipendenze opzionali sono comunemente installate tutte. La correzione è arrivata con la versione 5.3.0, all'inizio di marzo 2026.

Perché conta

LLM BUILDER/DEV: Caricare un modello smette di essere un'operazione innocua: anche con trust_remote_code=false, ritenuto la difesa sicura, un semplice config.json può eseguire codice. Va aggiornato Transformers ad almeno 5.3.0, trattando config e pesi come input non fidati e ispezionando i config alla ricerca del campo _attn_implementation_internal.
INGEGNERI ICT / IT MANAGER: È un rischio di supply chain su un componente onnipresente: i più esposti sono i cluster GPU e le piattaforme ML enterprise, che installano tutte le dipendenze opzionali (incluso kernels). Serve censire le versioni di Transformers in uso sulla flotta e forzarne l'upgrade a 5.3.0, perché il vero confine di sicurezza è la configurazione del modello, non solo il codice remoto esplicito.

Fonti (consultate il 2026-06-05)

NVD — CVE-2026-4372 — pubblicato il 2026-05-24
SiliconANGLE — Critical Hugging Face Transformers flaw ran attacker code on a routine model load — pubblicato il 2026-06-04
CSO Online — Hugging Face Transformers RCE flaw enables stealthy compromise via AI model configs — pubblicato il 2026-06-04

Una sola issue poteva dirottare i repository che usano la GitHub Action di Claude Code

Un controllo di autorizzazione difettoso nella claude-code-action si fidava di qualsiasi attore 'bot': bastava una issue malevola per innescare una prompt injection, esfiltrare le credenziali OIDC e ottenere accesso in scrittura. Anthropic ha corretto il bypass principale in pochi giorni; la patch è nella v1.0.94.

Il ricercatore RyotaK di GMO Flatt Security ha mostrato come la GitHub Action ufficiale di Claude Code (claude-code-action) potesse essere dirottata con una sola issue. La radice è un controllo di autorizzazione difettoso: la funzione checkWritePermissions si fidava di qualsiasi attore di tipo GitHub App — il cui nome termina con [bot] — a prescindere dai permessi reali. Le GitHub App hanno accesso implicito in lettura ai repository pubblici e possono aprire issue con il solo installation token. Un attaccante poteva così creare un'app malevola, installarla su un proprio repo e usarne il token per aprire una issue nel repository bersaglio, superando il controllo (disclosure originale, GMO Flatt Security).

A quel punto entra in gioco la prompt injection: la issue conteneva un finto messaggio d'errore che induceva Claude a eseguire comandi. Claude Code autorizza senza conferma alcuni comandi bash (come cat e head), sufficienti a leggere /proc/self/environ ed esporre le variabili d'ambiente del workflow. Tra queste figurano ACTIONS_ID_TOKEN_REQUEST_TOKEN e ACTIONS_ID_TOKEN_REQUEST_URL, le credenziali per richiedere un token OIDC. Scambiando quel token con il backend di Anthropic si otteneva un installation token privilegiato, e quindi accesso in scrittura al repository (eSecurity Planet).

Lo scenario più grave: la stessa Action di Anthropic usava quel workflow, perciò un exploit avrebbe potuto iniettare codice nell'Action stessa, propagandosi a valle (rischio supply chain). Anthropic ha valutato il difetto 7.8 (CVSS v4.0), riconosciuto un bug bounty e corretto il bypass in quattro giorni: segnalato il 12 gennaio 2026, è stato risolto il 16. La patch è nella v1.0.94, che disabilita di default i trigger da GitHub App. Il 17 febbraio una configurazione analoga in Cline è stata sfruttata in the wild, segno che la classe d'attacco è concreta. Il ricercatore indipendente Aonan Guan inquadra il problema come architetturale più che come bug: gli agenti elaborano input non fidato nello stesso runtime in cui custodiscono segreti e strumenti di esecuzione. La stessa debolezza tocca anche Gemini CLI e GitHub Copilot (SecurityWeek).

Perché conta

LLM BUILDER/DEV: Chi integra Claude Code o agenti simili nella CI deve trattare ogni issue, PR o commento come input ostile: la falla nasce dall'eseguire input non fidato nello stesso runtime che custodisce segreti e strumenti. Aggiornare ad almeno la v1.0.94, disabilitare i trigger da GitHub App e restringere i comandi auto-approvati sono mitigazioni immediate.
INGEGNERI ICT / IT MANAGER: È un rischio di supply chain che trascende il singolo vendor: la stessa classe colpisce anche Gemini CLI e GitHub Copilot. Serve un inventario di quali agenti AI hanno accesso ai repository e ai token OIDC, e una policy che ne governi i permessi prima che un exploit a monte si propaghi ai progetti a valle.

Fonti (consultate il 2026-06-05)

SymJack: un symlink trasforma il prompt di approvazione degli agenti di coding in RCE

Un repository ostile sfrutta i file di istruzioni e un symlink per far approvare all'utente un comando apparentemente innocuo che in realtà sovrascrive la configurazione dell'agente e installa un MCP server malevolo. Adversa AI lo ha dimostrato su almeno cinque CLI; quasi tutti i vendor hanno minimizzato.

Il 26 maggio 2026 Rony Utevsky di Adversa AI ha divulgato SymJack, un attacco che aggira il controllo human-in-the-loop di diversi agenti di coding. Un repository ostile include un file di istruzioni che gli agenti leggono in automatico all'avvio (CLAUDE.md, AGENTS.md, GEMINI.md), trattandolo come guida fidata. Come spiega un'analisi tecnica, quel file chiede all'agente una copia shell grezza — ad esempio cp media/vid0.mp4 docs/vid-settings.mp4 — invece di uno strumento di scrittura nativo. La destinazione è però un symlink committato nel repo che punta alla configurazione dell'agente (.mcp.json, .claude/settings.json, .codex/config.toml): il kernel segue il link e sovrascrive la config con la definizione di un MCP server malevolo travestita da file video. Al riavvio l'agente avvia quel server e il codice dell'attaccante gira come l'utente, senza sandbox. Il prompt di approvazione mostra il comando letterale, non il percorso risolto: l'utente approva qualcosa che sembra innocuo.

Secondo SecurityWeek sono coinvolti almeno cinque agenti (Claude Code, Cursor, Antigravity, Copilot CLI, Grok Build CLI); la divulgazione enumera anche Gemini CLI e OpenAI Codex CLI, quindi il numero varia a seconda di come si contano i binari. L'impatto va dal furto di chiavi SSH e token cloud alla compromissione delle pipeline CI, dove una sola pull request può esfiltrare tutti i secret dei runner prima di una review umana.

La maggior parte dei vendor ha respinto il report come comportamento atteso. OpenAI/Bugcrowd ha chiuso il report come teorico, sostenendo che l'utente approva il comando cp; Adversa replica che proprio quell'approvazione non è informata, perché il prompt non mostra il percorso risolto. Google lo ha classificato un «attacco self a singolo utente», Cursor un duplicato di un report symlink già noto. Anthropic lo ha rifiutato come fuori scope ma, pur senza ammettere formalmente la lacuna, ha poi irrigidito il flusso di approvazione di Claude Code mostrando il percorso reale/risolto. xAI e GitHub non avevano ancora risposto.

Perché conta

INGEGNERI ICT / IT MANAGER: Il prompt di approvazione non è una difesa affidabile: un singolo repo clonato o una PR possono esfiltrare i secret della CI prima che un umano li veda. I file di istruzioni dei repo esterni vanno trattati come non fidati, i permessi degli agenti vanno ristretti e le configurazioni MCP vanno auditate.
LLM BUILDER/DEV: Chi costruisce agenti deve risolvere i symlink prima del prompt di approvazione e mostrare l'effetto reale, non il comando letterale: la patch silenziosa di Anthropic è il modello da seguire. Le istruzioni auto-ingerite dai repo (CLAUDE.md, AGENTS.md) sono input non fidato, non guida fidata.

Fonti (consultate il 2026-06-06)

Adversa AI — The approval prompt is lying: symlink RCE in cinque agenti di coding (disclosure primaria di Rony Utevsky) — pubblicato il 2026-05-26
SecurityWeek — 'SymJack' attack turns AI coding agents into supply chain attack delivery systems (copertura indipendente) — pubblicato il 2026-05-27
Singularity.Kiwi — Analisi tecnica di SymJack (symlink hijack → RCE)

Ramp raccoglie 750 milioni a una valutazione di 44 miliardi, trainata dalla scommessa sull'AI

La società di spend management chiude una Serie F da 750 milioni guidata da ICONIQ, GIC e Ontario Teachers'. La valutazione quasi raddoppia in meno di un anno, sull'onda dell'appetito per i fintech con una storia AI.

Ramp, società di spend management con sede a New York fondata nel 2019, ha annunciato il 4 giugno 2026 una Serie F da 750 milioni di dollari (financing primario) a una valutazione di 44 miliardi. Il round è guidato da ICONIQ, GIC e Ontario Teachers' Pension Plan, con l'ingresso di investitori istituzionali di peso come Goldman Sachs Alternatives, D.E. Shaw, Morgan Stanley Investment Management, Generation Investment Management e Insight Partners. Tornano tra gli altri Founders Fund, Thrive Capital, Coatue e General Catalyst. Con questa operazione la raccolta complessiva supera i 3 miliardi.

A sostenere la valutazione ci sono numeri di crescita robusti: oltre 70.000 clienti (erano 50.000 a novembre 2025), un volume di acquisti annualizzato di 200 miliardi, ricavi annualizzati sopra il miliardo con free cash flow positivo e più di 3.200 clienti enterprise da almeno 100.000 dollari di ARR. A marzo 2026 il TPV è cresciuto circa il 170% su base annua.

La leva del racconto è l'AI. Ramp punta sul "token spend management" (monitorare e controllare i costi d'uso dei modelli AI), su una carta aziendale pensata per gli agenti AI, su agenti per procurement e contabilità e su Ramp Stack, il sistema operativo AI per gli studi contabili. È proprio questa narrativa a spingere i capitali. Come osserva TechCrunch, gli investitori "hanno fame di fintech con una storia AI", al punto da notare con ironia che l'annuncio dell'azienda "sembra parecchio generato dall'AI". La valutazione è quasi raddoppiata rispetto ai 22,5 miliardi dell'estate 2025 ed è cresciuta del 37,5% sui 32 miliardi di novembre 2025. È un ritmo che alimenta dubbi sull'effervescenza del settore. È comunque il round più grande della settimana.

Perché conta

IMPRENDITORI: Il salto a 44 miliardi fissa un nuovo benchmark nel fintech aziendale e conferma che oggi i capitali premiano chi unisce una storia AI credibile a numeri solidi (oltre un miliardo di ricavi, free cash flow positivo): per chi fa impresa è il segnale che il controllo della spesa — incluso il nuovo fronte dei costi dei token AI — è un mercato in piena espansione. Allo stesso tempo, una valutazione quasi raddoppiata in meno di un anno invita a leggere con prudenza l'effervescenza del settore.

Fonti (consultate il 2026-06-06)

Ramp — comunicato ufficiale: Series F a 44 miliardi (PR Newswire) — pubblicato il 2026-06-04
TechCrunch — Ramp raises $750M at $44B valuation as investors hunger for fintechs with an AI story — pubblicato il 2026-06-04
Crunchbase News — Biggest funding rounds (5 giugno 2026) — pubblicato il 2026-06-05

Lovable quintuplica l'impronta su Google Cloud e blinda l'accesso ai modelli AI

La startup svedese del vibe coding estende a più anni la collaborazione con Google Cloud per crescere cinque volte in infrastruttura e uso AI, con accesso a Gemini e Claude. Il valore economico non è stato divulgato.

Lovable è la startup di Stoccolma che genera applicazioni full-stack partendo da prompt in linguaggio naturale (il cosiddetto «vibe coding»). Il 3 giugno, al Google Cloud Summit Nordics, ha annunciato un'estensione pluriennale della collaborazione con Google Cloud, che diventa uno dei suoi partner infrastrutturali primari. Secondo TechCrunch, l'accordo prevede una crescita di cinque volte dell'impronta di Lovable sulla piattaforma, incluso l'uso AI, con accesso ai modelli Gemini di Google e a Claude di Anthropic tramite Vertex AI. Il valore economico non è stato divulgato da nessuna delle due aziende.

Il comunicato ufficiale di Google Cloud poggia su tre pilastri: il Lovable Agent entra nella Gemini Enterprise Agent Gallery, catalogo di agenti di terze parti verificati; una nuova integrazione con Wiz individua e corregge in tempo reale le vulnerabilità nel codice generato dall'AI; Lovable diventa acquistabile su Google Cloud Marketplace e Gemini Enterprise per semplificare procurement e fatturazione. «Costruire è solo l'inizio», ha dichiarato il CEO Anton Osika.

L'obiettivo è conquistare i clienti enterprise: Lovable elabora oltre un milione di nuovi progetti a settimana e ha raggiunto circa 400 milioni di dollari di ricavi annualizzati con 146 dipendenti. Ma — come osserva The Next Web — compete in un campo affollato (Cursor, Replit, Bolt) e deve dimostrare alle imprese che ciò che viene prodotto sia sicuro e governato. I provider cloud, nota TechBuzz, stanno blindando in anticipo le aziende AI in rapida crescita con accordi pluriennali, prima che diventino grandi consumatori di compute.

Perché conta

IMPRENDITORI: Per chi costruisce prodotti su AI, l'accordo mostra che assicurarsi capacità di compute e accesso ai modelli con contratti pluriennali sta diventando una leva strategica quanto la qualità del prodotto: blindare la fornitura prima che i costi salgano protegge i margini, ma espone al lock-in verso un singolo hyperscaler. Sul piano go-to-market, entrare nel marketplace e nell'agent gallery di un provider cloud abbatte l'attrito di procurement che spesso blocca le vendite enterprise — un canale che può pesare più del solo modello migliore.

Fonti (consultate il 2026-06-05)

TechCrunch — Lovable signs multiyear deal with Google Cloud to up usage 5x, source says — pubblicato il 2026-06-03
Google Cloud (comunicato ufficiale) — Lovable expands collaboration with Google Cloud — pubblicato il 2026-06-03
The Next Web — Lovable makes Google Cloud a primary partner to win over corporate buyers — pubblicato il 2026-06-03
TechBuzz — Lovable locks 5x Google Cloud expansion with Claude access — pubblicato il 2026-06-03

Goedel-Architect dimostra teoremi in Lean 4 con un blueprint globale e tocca il 99,2% su MiniF2F

Il framework agentico di un gruppo di Princeton genera un grafo di dipendenze e chiude i lemmi in parallelo, arrivando al 75,6% su PutnamBench; i punteggi più alti, però, richiedono una guida in linguaggio naturale.

Un gruppo di Princeton guidato da Sanjeev Arora ha pubblicato Goedel-Architect, un framework agentico per dimostrare formalmente teoremi in Lean 4. Ciò che lo distingue dagli approcci dominanti è il metodo. Invece di decomporre ricorsivamente il teorema in lemmi — strategia che può avvitarsi su vicoli ciechi — il sistema genera prima un blueprint globale: un grafo di dipendenze tra definizioni e lemmi che porta al teorema principale. Poi un prover Lean dotato di strumenti chiude in parallelo ogni nodo-lemma ancora aperto, e i lemmi che falliscono guidano la rifinitura del blueprint complessivo (arXiv, preprint del 4 giugno 2026).

I punteggi sono al vertice: 99,2% pass@1 su MiniF2F-test e 75,6% pass@1 su PutnamBench in modalità autonoma. Con il blueprint guidato da una dimostrazione in linguaggio naturale salgono al 100% e all'88,8% (597/672). Sulle gare recenti risolve 4 problemi su 6 alla IMO 2025, 11 su 12 al Putnam 2025 e 3 su 6 alla USAMO 2026. Il backbone è DeepSeek-V4-Flash (284B-A13B), un modello open-weight.

Il lavoro estende la linea Goedel-Prover dello stesso gruppo: Goedel-Prover-V2 si fermava a 88,1% pass@32 su MiniF2F e 86 problemi su PutnamBench. Il salto sostanziale è quindi su PutnamBench, mentre MiniF2F è ormai prossimo alla saturazione. Restano però tre cautele. I punteggi più alti non sono autonomi, ma richiedono la guida in linguaggio naturale. La riduzione di costo «fino a 500 volte rispetto a pipeline open-source comparabili» è una rivendicazione degli autori, non un confronto verificato in modo indipendente. Infine, è un preprint non ancora sottoposto a revisione paritaria (sintesi accademica).

Perché conta

RICERCA DI FRONTIERA: Il segnale non è solo il punteggio, ma il cambio di architettura: il blueprint globale con chiusura dei lemmi in parallelo si propone come alternativa alla decomposizione ricorsiva, e il salto avviene su PutnamBench — il benchmark più duro e non ancora saturo — orchestrando un backbone open-weight (DeepSeek-V4-Flash) invece di addestrare un prover dedicato. Suggerisce che, nel reasoning formale, l'orchestrazione agentica possa contare quanto la scala del modello.

Fonti (consultate il 2026-06-05)

Tutte le edizioni