OneLogic
Tutte le edizioni

Lumina Digest

Gli sviluppi dell'AI, per chi preferisce ancora leggere.

La teoria della frontiera frastagliata: perché l'intelligenza artificiale accelera solo dove la verifica è economica

L'evoluzione dei modelli linguistici non segue una crescita lineare, ma si sviluppa lungo una frontiera frastagliata dettata dalla facilità di verifica dei risultati. Analizzando le riflessioni di Andrej Karpathy, emerge come l'ingegneria del software debba evolvere verso la creazione di sistemi di validazione automatica per abilitare una reale autonomia degli agenti IA.

Durante l'evento AI Ascent 2026, Andrej Karpathy (co-fondatore di OpenAI ed Eureka Labs) ha evidenziato come le capacità dei Large Language Model (LLM) non crescano in modo uniforme. Si parla di jagged intelligence (intelligenza frastagliata): un modello può eccellere in compiti complessi e fallire in attività adiacenti apparentemente banali. Questa asimmetria non è una semplice allucinazione, ma dipende direttamente dal ciclo di feedback del machine learning.

Laddove la verifica del risultato è economica e automatizzabile (compilazione di codice, calcoli matematici, regole degli scacchi), i laboratori di ricerca possono addestrare i modelli tramite Reinforcement Learning (RL) in modo estremamente aggressivo. Al contrario, compiti che richiedono "gusto ingegneristico", giudizio di prodotto o comprensione del contesto d'uso sfuggono a unit test immediati. In questi ambiti a verifica complessa (fuzzy), il progresso rallenta e richiede ancora un forte presidio umano.

Per ovviare a queste limitazioni nell'ingegneria del software, la community ha iniziato a mappare sistematicamente i pattern di fallimento dei modelli. Un esempio concreto è il repository andrej-karpathy-skills, che ottimizza il comportamento di strumenti di sviluppo basandosi proprio sulle osservazioni di Karpathy relative ai tipici pitfall di programmazione delle IA. La sfida per gli ingegneri non è più solo chiedere se un modello possa eseguire un compito, ma se sia in grado di verificare autonomamente la correttezza del proprio output. Senza questa capacità di auto-validazione, l'autonomia degli agenti rimane vincolata a rigidi guardrail e valutazioni umane.


Fonti:

L'evoluzione dei sistemi multi-agente: la comunicazione nello spazio latente con recursivemas

Ricercatori di MIT, Stanford e NVIDIA hanno presentato RecursiveMAS, un framework che rivoluziona la collaborazione tra agenti IA eliminando la conversione in testo naturale. Attraverso il modulo RecursiveLink, gli agenti comunicano direttamente nello spazio latente, riducendo drasticamente i costi computazionali e migliorando le prestazioni logiche.

Nei tradizionali sistemi multi-agente, l'interazione avviene tramite lo scambio di testo in linguaggio naturale. Questo processo, pur essendo intuitivo, si rivela computazionalmente oneroso, lento e soggetto a degradazione semantica durante le fasi di codifica e decodifica. Per superare questo collo di bottiglia, un team di ricerca composto da scienziati di MIT, Stanford e NVIDIA ha sviluppato RecursiveMAS, un framework descritto nel paper scientifico arXiv:2604.25917. L'innovazione risiede nell'unificazione dell'intero sistema in un'unica computazione ricorsiva nello spazio latente (latent-space).

Invece di generare token testuali leggibili, gli agenti scambiano direttamente i propri stati latenti. Questo trasferimento continuo, assimilabile a una staffetta computazionale, avviene tramite un modulo leggero denominato RecursiveLink. Il connettore si innesta direttamente sui layer di output dei modelli, trasferendo le informazioni prima che vengano tradotte in parole. Questa architettura evita il costoso fine-tuning dei modelli linguistici di base, richiedendo unicamente l'addestramento del modulo di collegamento.

I dati sperimentali evidenziano l'efficacia di questo approccio: nei problemi matematici di livello olimpico, RecursiveMAS ha registrato un incremento medio delle prestazioni dell'8%, con divari ancora più netti nei task complessi. Sotto il profilo dell'efficienza, il sistema si è dimostrato 2,4 volte più veloce, riducendo l'uso dei token del 75%. Straordinario è anche il fattore economico: l'addestramento del modulo RecursiveLink è costato appena 4,27 dollari, rispetto ai circa 10 dollari richiesti da un fine-tuning standard, ridefinendo i parametri di scalabilità per l'addestramento dei sistemi multi-agente.


Fonti:

Cursor lancia composer 2.5: la strategia di distillazione dei dati che sfida i modelli di frontiera

Cursor ha rilasciato Composer 2.5, un nuovo coding agent che offre prestazioni paragonabili ai modelli di frontiera a una frazione del loro costo. Sfruttando la distillazione dei dati d'uso e il pre-addestramento continuo sul modello open-weights Kimi K2.5, la startup dimostra l'efficacia di una strategia basata sull'ottimizzazione mirata.

La software house Cursor ha annunciato il rilascio di Composer 2.5, un innovativo coding agent progettato per eguagliare le prestazioni di modelli di frontiera come Opus 4.7, riducendo drasticamente i costi operativi. La tariffazione di Composer 2.5 è fissata a soli 0,50 dollari per milione di token in input e 2,50 dollari per milione di token in output, con una variante ad alta velocità proposta a 3,00 dollari in input e 15,00 dollari in output.

Come dettagliato nel technical report di Composer 2 e nel relativo paper su arXiv, Cursor non ha sviluppato un modello da zero. Ha invece applicato un pre-addestramento continuo (continued pretraining) a partire dal modello open-weights Kimi K2.5, seguito da un addestramento tramite Reinforcement Learning (RL) su larga scala all'interno di sessioni d'uso reali di Cursor.

La vera chiave di volta strategica risiede nella distillazione dei dati. Avendo offerto per lungo tempo l'accesso a modelli di frontiera (quali GPT, Gemini e Claude), Cursor ha potuto raccogliere un dataset proprietario di altissima qualità basato sulle interazioni reali degli utenti. Questo flusso di input e output ha permesso di addestrare il proprio modello specializzato, emulando i flussi di lavoro reali direttamente nell'infrastruttura di sviluppo (Cursor harness), minimizzando così il divario tra addestramento e utilizzo pratico.


Fonti:

Fonte originale: @simorizzo_ai

Pubblicazione: 19 Maggio 2026 alle 10:38

Fonti di riscontro e approfondimento: arxiv.org/html/2603.24477v2 | cursor.com/blog/composer-2-technical-report | cursor.com/blog/composer-2-5