Come preferisci leggerla?
Stessa edizione, spiegata senza gergo — e altrettanto fedele. Non è un riassunto sbrigativo: un controllo indipendente verifica che la versione divulgativa resti fedele all'originale, senza perdere né alterare nulla.
NVIDIA apre Nemotron 3 Ultra, modello open da 550 miliardi con architettura ibrida Mamba-Attention
Rilascio open-weight del 4 giugno: 55 miliardi di parametri attivi, contesto da 1M token e throughput dichiarato fino a 5,9x sui rivali. Sull'intelligenza pura, però, resta dietro al cinese Kimi K2.6.
NVIDIA ha rilasciato il 4 giugno Nemotron 3 Ultra, un modello open-weight da 550 miliardi di parametri totali e 55 miliardi attivi (circa il 90% di sparsità). È distribuito su Hugging Face sotto licenza aperta OpenMDW-1.1.
Il cuore è un'architettura MoE ibrida Mamba-Attention: un backbone Mamba-2 (state space) con pochi layer di self-attention. Questa combinazione riduce il costo dell'attention e il footprint della KV cache nei contesti lunghi. Sono due grandezze distinte: il costo computazionale dell'attention scala in modo quadratico con la lunghezza della sequenza, mentre la memoria della KV cache cresce linearmente con il numero di token conservati. Tenendo l'attention su pochi layer, l'ibrido attenua la componente quadratica del prefill e contiene la crescita della cache nel decode. Ne deriva una finestra fino a 1M token. NVIDIA dichiara inoltre di battere gli altri LLM open sul benchmark RULER a 1M di contesto. Sul fronte efficienza il modello è pre-addestrato in NVFP4 (4 bit) su hardware Blackwell e adotta LatentMoE e multi-token prediction. Non è un'architettura inventata da zero, ma una ricombinazione ingegnerizzata di tecniche note (Mamba-2, attention, MoE, quantizzazione a 4 bit) ottimizzata per gli agenti a lungo orizzonte.
La leva competitiva reale è la velocità: oltre 300 token/secondo su endpoint pre-release, contro i 50-100 dei pari cinesi. NVIDIA rivendica un throughput 5,9x / 4,8x / 1,6x superiore a GLM-5.1, Kimi-K2.6 e Qwen-3.5 nello scenario 8k input / 64k output, ma sono numeri della casa, misurati contro rivali scelti da NVIDIA. Il report tecnico li ottiene a max-throughput in NVFP4 su GB200, con Nemotron servito via TRT-LLM e i concorrenti via vLLM. Per ciascun modello è stato scelto il miglior risultato, con o senza speculative decoding. Sull'intelligenza pura Artificial Analysis gli assegna 48 punti sul suo Intelligence Index: primo tra gli open statunitensi (Gemma 4 a 39, gpt-oss-120b a 33), ma sei punti dietro il cinese Kimi K2.6 (54). Le analisi indipendenti aggiungono due caveat. Primo: il punteggio è su pesi BF16 pre-release, non sulla versione NVFP4 finale. Secondo: l'apertura della licenza instrada comunque gli sviluppatori verso l'hardware NVIDIA via dipendenze CUDA.
Perché conta
- RICERCA DI FRONTIERA: Un ibrido Mamba-Attention a scala frontier con pesi aperti mostra che il costo quadratico dell'attention e il footprint lineare della KV cache nei contesti lunghi si possono attenuare con un backbone Mamba-2 a pochi layer di attention. È materiale da 550B su cui studiare contesti da 1M e meccanismi state-space + MoE. Ma conferma anche che la frontiera open statunitense resta dietro a quella cinese (Kimi K2.6 a 54 contro 48).
- LLM BUILDER/DEV: Licenza aperta, contesto da 1M token e oltre 300 token/secondo rendono il modello deployabile per agenti a lungo orizzonte, con costi di inferenza contenuti grazie ai 55B attivi. Ma il deploy resta da fascia data-center: la model card indica un minimo di 8x GB200/B200/GB300/B300, 16x H100 o 8x H200. Da pesare prima dell'adozione anche che i benchmark indipendenti sono su pesi BF16 pre-release (non sulla versione NVFP4 finale) e che l'ecosistema spinge verso hardware NVIDIA via CUDA.
Trump firma l'ordine esecutivo sull'AI: revisione volontaria dei modelli e stop alle licenze obbligatorie
Il 2 giugno 2026 la Casa Bianca sceglie l'autoregolamentazione volontaria per i modelli di frontiera: accesso anticipato di 30 giorni al governo e niente obblighi di licenza. Ma la natura volontaria del meccanismo è già contestata.
Il 2 giugno 2026 il presidente Donald Trump ha firmato l'ordine esecutivo "Promoting Advanced Artificial Intelligence Innovation and Security", che imposta la supervisione dei modelli di frontiera su base volontaria anziché obbligatoria. Il provvedimento incarica le agenzie federali di definire entro 60 giorni un framework volontario. Al suo interno gli sviluppatori concedono al governo accesso ai "covered frontier models" fino a 30 giorni prima del rilascio ad altri soggetti, così che Treasury, NSA e CISA ne valutino le capacità cyber (Sezione 3(b)(ii)). Quali modelli rientrino nel perimetro non è ancora fissato. Secondo David Sacks, il responsabile per l'AI della Casa Bianca, il framework è pensato per modelli con un "meaningful step-change" nelle capacità cyber. Il criterio preciso sarà definito dal processo di benchmarking classificato gestito dalla NSA. La revisione, insomma, non dovrebbe riguardare ogni aggiornamento.
Il testo è esplicito su ciò che NON fa: la Sezione 3(c) vieta qualsiasi obbligo di licenza, pre-clearance o permesso per sviluppare, pubblicare o distribuire nuovi modelli. Secondo il fact sheet della Casa Bianca, l'ordine istituisce inoltre entro 30 giorni una "AI cybersecurity clearinghouse", guidata dal Tesoro con National Cyber Director, NSA e CISA. La struttura coordinerà la scansione delle vulnerabilità, la validazione e la distribuzione delle patch.
È una versione ammorbidita. La bozza precedente, accantonata il 21 maggio per timori sulla competitività con la Cina, arrivava a 90 giorni di revisione, poi tagliati a 30 come concessione all'industria. La natura volontaria resta però contestata. Gli esperti del Council on Foreign Relations avvertono che l'efficacia dipenderà dalla collaborazione reale più che dal testo e che il patching resta irrisolto. Sul fronte sicurezza, come riporta Roll Call, il senatore Josh Hawley e diverse organizzazioni chiedono al Congresso di rendere obbligatoria la revisione.
Perché conta
- IMPRENDITORI: La scelta dell'autoregolamentazione volontaria — con divieto esplicito di licenze e pre-clearance obbligatorie — riduce l'incertezza normativa per chi sviluppa o vende AI negli USA. Può inoltre favorire programmi di 'trusted partner' ed effetti indiretti per i contractor cyber/IT, anche se il testo non crea uno status contrattuale formale. Ma la natura volontaria è già contestata (Hawley e diverse organizzazioni chiedono di renderla obbligatoria via Congresso): il quadro potrebbe irrigidirsi.
- INGEGNERI ICT / IT MANAGER: La clearinghouse sulle vulnerabilità e l'accesso anticipato di 30 giorni mirano a dare ai difensori un vantaggio sui rischi dei modelli di frontiera. Chi gestisce infrastrutture e sicurezza dovrebbe però pesare i caveat degli esperti: benchmarking classificato e NDA possono ritardare l'arrivo dei modelli ai difensori, e il patching resta irrisolto per gli operatori meno strutturati.
Gemma 4 12B: Google rimuove l'encoder e porta il multimodale nativo sul portatile
Google DeepMind rilascia un modello aperto da 12B che proietta immagini e audio grezzo direttamente nello spazio dei token, avvicinando un MoE 26B con meno della metà della memoria. L'idea, però, poggia su lavori di early fusion già noti e il claim '16 GB' ha caveat reali.
Il 3 giugno 2026 Google DeepMind ha rilasciato Gemma 4 12B, un modello multimodale aperto con licenza Apache 2.0. La novità è architetturale: elimina gli encoder dedicati per immagini e audio. Al posto del vision encoder da circa 550M parametri, una proiezione lineare leggera da ~35M parametri mappa le patch dell'immagine (riquadri da 48×48 px) direttamente nello spazio di embedding del modello. L'audio grezzo a 16 kHz, suddiviso in frame da 40 ms, viene proiettato nello stesso spazio dei token testuali, rimuovendo del tutto l'encoder audio conformer dei modelli precedenti. È il primo Gemma mid-size con input audio nativo. La scheda Hugging Face riporta 11,95 miliardi di parametri, contesto da 256K token e supporto a immagini, audio e video. Il guadagno dichiarato è prestazioni vicine al MoE 26B con meno della metà della memoria, eseguibile su un portatile da 16 GB.
L'approccio, però, non è inedito: come ricordano diversi sviluppatori, l'early fusion senza encoder era già stata esplorata da Chameleon di Meta FAIR e dalla serie EVE. La vera novità di Gemma 4 è applicarla a immagini e audio insieme a questa scala. Restano caveat materiali: l'analisi indipendente di MarkTechPost osserva che togliere l'encoder sposta sul backbone LLM gran parte della comprensione visiva (compromesso qualità/efficienza) e che i materiali di lancio non includevano benchmark completi. Nello stesso senso — ma da una voce non indipendente — va l'analisi tecnica di Maarten Grootendorst, affiliato a Google DeepMind. Sull'accessibilità, la community precisa che servono 16 GB di VRAM (non di RAM di sistema) e che quella soglia presuppone versioni quantizzate, mentre i benchmark girano in BF16 (~24 GB).
Perché conta
- RICERCA DI FRONTIERA: Il contributo verificabile non è un'invenzione da zero ma una pietra miliare di ingegneria: dimostra che l'early fusion encoder-free può avvicinare la qualità della classe 26B a costi di memoria dimezzati e all'edge, applicando l'idea a immagini e audio insieme. Pesi aperti e Apache 2.0 ne fanno un banco di prova riproducibile per il fine-tuning multimodale end-to-end, ma l'eredità (Chameleon, EVE) e i caveat su benchmark e memoria reale vanno tenuti a mente nel valutarne la portata.
Microsoft presenta Project Solara, la piattaforma chip-to-cloud per dispositivi che eseguono agenti invece di app
Al Build 2026 Microsoft ha svelato Project Solara, un sistema basato su AOSP per dispositivi 'agent-first'. È stato mostrato con un badge indossabile e un companion da scrivania. Per ora sono prototipi, non prodotti in vendita.
Al Build 2026 Microsoft ha annunciato Project Solara, una piattaforma «chip-to-cloud» pensata da zero per dispositivi agent-first. L'idea è spostarsi «from software you open to intelligence you invoke», cioè invocare un agente invece di aprire app. Il sistema operativo si chiama Microsoft Device Ecosystem Platform (MDEP) ed è costruito su AOSP (Android Open Source Project), non su Windows. I dispositivi funzionano di fatto come interfacce verso agenti ospitati nel cloud (annuncio Microsoft Command Line).
Microsoft ha mostrato due reference design. Il primo è un badge indossabile con silicio Qualcomm: touchscreen, array di microfoni far-field, sensore d'impronta per Windows Hello for Business e fotocamera laterale. La connettività include 5G, Wi-Fi, Bluetooth e GNSS. Il secondo è un companion da scrivania con silicio MediaTek: touchscreen, autenticazione facciale, doppio array di microfoni, sensore di presenza UWB e due porte USB-C. Collegato a un monitor esterno, può fare da client Windows 365. La piattaforma supporta più agenti senza un agente «dominante» e adatta l'interfaccia con una just-in-time UI. Sul fronte aziendale ci sono Intune, Entra ID e un pulsante fisico per silenziare il microfono (Engadget).
Il caveat è sostanziale: sono prototipi, non prodotti acquistabili. Microsoft non costruirà i dispositivi finali ma fornirà i reference design agli OEM. Per essere certificati, i dispositivi dovranno usare «approved chipsets» (Tom's Hardware). Il pilot esterno — con AccuWeather, Best Buy, CVS Health, Levi's e Target — partirà «nei prossimi mesi»; l'azienda stessa frena: «We are still early. I don't want to over-promise».
Perché conta
- UTENTI FINALI: È un'anteprima concreta del dopo-smartphone: dispositivi che si usano parlando con un agente invece di toccare app. Ma è una visione enterprise ancora allo stadio di prototipo — non c'è nulla da comprare oggi, e l'utilità reale dipenderà da quanto gli agenti diventeranno affidabili e non invasivi.
Studio Apica/Omdia: l'AI agentica può far esplodere la telemetria fino a 9,5x, e le imprese non sono pronte
Una ricerca Omdia commissionata da Apica proietta un aumento medio di 9,5x della telemetria generata dall'AI agentica entro due anni; il 54% delle imprese ha già visto triplicare i dati in 12 mesi e i costi di osservabilità stanno bloccando i progetti. Le cifre vanno però trattate come dato di vendor.
Un nuovo studio condotto da Omdia (gruppo Informa TechTarget) per conto di Apica sostiene che l'adozione di AI agentica innescherà un'esplosione di dati di telemetria (comunicato Apica). Su oltre 300 decisori IT di Nord America ed Europa occidentale, i rispondenti si attendono in media un aumento di 9,5 volte del volume di telemetria prodotto dai carichi agentici entro due anni. UK, Svizzera, Germania e Austria coprono circa metà del campione. È una proiezione, non un dato già avvenuto: il 44% prevede una crescita compresa fra 6x e 100x (UK Tech News).
Il dato già osservato è più contenuto, ma significativo: il 54% delle imprese ha visto triplicare il volume di telemetria negli ultimi 12 mesi, in media 3,7x su base annua. I carichi AI/ML pesano ormai per circa il 43% di quella crescita. L'83% colloca l'osservabilità dell'AI tra le priorità del 2026.
Il nodo è il costo. Nel 69% dei progetti agentici la spesa di osservabilità supera quella di calcolo e infrastruttura messe insieme, con una spesa media annua dichiarata di 3,17 milioni di dollari. Inoltre, il 59% afferma di aver già cancellato o rinviato un deployment agentico perché monitorarlo costava troppo. «La scalabilità è il motivo principale per cui i progetti agentici non decollano», sintetizza l'analista Omdia Torsten Volk.
La ricerca va però letta con cautela: è PR-driven, commissionata da Apica, che vende proprio pipeline di telemetria a basso costo (rivendica fino al 40% di TCO in meno). La direzione trova comunque riscontro indipendente: OneUptime, estranea allo studio, stima che un singolo pipeline AI generi 10-50x più telemetria di una chiamata tradizionale. Questo mette in crisi il pricing a volume di Datadog, New Relic e Splunk.
Perché conta
- INGEGNERI ICT / IT MANAGER: Chi gestisce infrastruttura e budget di osservabilità dovrebbe pianificare ora la crescita della telemetria — pipeline, sampling, governance dei dati — prima di scalare gli agenti: con il pricing a volume degli strumenti attuali, monitorare può costare più del calcolo stesso e arrivare a bloccare i progetti. Anche trattando il 9,5x come stima di vendor, la direzione è confermata da fonti indipendenti, quindi il rischio di capacità e di costo è reale e va dimensionato per tempo.
GitHub Copilot: nuova UI a schede nella CLI, BYOK air-gapped lato VS Code
GitHub aggiorna su due fronti distinti. La Copilot CLI riceve interfaccia a schede, rubber duck, scheduling dei prompt e input vocale. Il BYOK air-gapped con endpoint personalizzati arriva invece nelle release di maggio di Copilot in VS Code.
GitHub ha aggiornato due fronti distinti dell'esperienza Copilot. Nel changelog della Copilot CLI del 2 giugno 2026 debutta un'interfaccia di terminale sperimentale, attivabile con /experimental on. Offre schede Session, Issues, Pull Requests e Gists, colori semantici a tema e supporto screen reader attivo di default. Diventano generalmente disponibili il "rubber duck" — un agente-critico interno che rivede piani, design, implementazione e test via /rubber-duck — e l'input vocale, che gira in locale tenendo l'audio sulla macchina. Resta invece sperimentale lo scheduling dei prompt, con /every (ripete a intervalli, es. /every 30m run the frontend tests) e /after (esecuzione singola ritardata).
Il BYOK air-gapped, che il briefing attribuisce alla CLI, appartiene in realtà al changelog di Copilot in VS Code (release di maggio, v1.120–v1.123). Lì compaiono i modelli "bring-your-own-key" eseguibili in ambienti isolati senza autenticazione GitHub, un provider "Custom Endpoint" compatibile con chat completions, responses o messages, i "configurable utility models" (per titoli, riassunti, messaggi di commit e intent detection) e i controlli sul reasoning effort. Lo scope va però delimitato: secondo le release notes di VS Code 1.122, il BYOK senza sign-in copre chat, tools e MCP server, mentre inline suggestions e Next Edit Suggestions (NES) richiedono ancora l'autenticazione GitHub — un dettaglio decisivo proprio per chi pianifica un deployment air-gapped.
La precisazione conta perché la CLI aveva già ottenuto BYOK e modelli locali nel suo aggiornamento del 7 aprile 2026 — con modalità offline (COPILOT_OFFLINE=true), provider come Azure OpenAI, Anthropic, Ollama, vLLM e Foundry Local, e autenticazione GitHub opzionale. L'air-gapped, insomma, non è una novità della CLI di giugno: in questa tornata riguarda VS Code.
Perché conta
- LLM BUILDER/DEV: La leva conta su due piani: la CLI guadagna ergonomia e automazione (UI a schede, scheduling di prompt ricorrenti, revisione automatica via rubber duck), mentre il controllo su privacy e instradamento dei modelli — BYOK in ambienti isolati, endpoint custom verso modelli propri o locali — in questa tornata vive lato VS Code (e, dal 7 aprile, nella CLI con la modalità offline). Sapere dove sta ciascuna capacità evita di pianificare un deployment air-gapped sullo strumento sbagliato — e anche lato VS Code l'isolamento non è totale: senza sign-in il BYOK vale per chat, tools e MCP server, ma inline suggestions e NES restano legate all'autenticazione GitHub. Va inoltre ricordato che la UI a schede e lo scheduling sono ancora sperimentali (opt-in via
/experimental on).