
L’accordo di licenza strategica da oltre 20 miliardi di dollari tra Nvidia e Groq rappresenta uno dei primi segnali concreti di una trasformazione profonda nello stack dell’intelligenza artificiale. Non è un semplice deal tecnologico, ma l’apertura di un conflitto su quattro fronti che nel 2026 diventerà impossibile da ignorare per chi costruisce applicazioni AI e infrastrutture dati a livello enterprise.
Per i decision-maker tecnici, questo accordo indica chiaramente che l’era della GPU general-purpose come risposta universale all’inference sta finendo. L’industria sta entrando in una fase di disaggregated inference architecture, in cui il silicio stesso viene specializzato per rispondere a esigenze divergenti: contesto massivo da un lato e reasoning istantaneo dall’altro.
Perché l’inference sta spezzando l’architettura GPU
Per capire perché il CEO di Nvidia Jensen Huang abbia impegnato circa un terzo della liquidità disponibile dell’azienda in questo accordo, bisogna guardare alle pressioni convergenti sul dominio Nvidia, che secondo le stime controlla oltre il 90% del mercato GPU per AI.
Nvidia, secondo le stime controlla oltre il 90% del mercato GPU per AI
Il punto di svolta è arrivato a fine 2025, quando per la prima volta l’inference* ha superato il training in termini di ricavi complessivi dei data center. In questo nuovo scenario, accuratezza e dimensione dei modelli restano prerequisiti, ma la competizione si gioca su latenza e capacità di mantenere “stato” negli agenti autonomi.
Il risultato è una frammentazione dei workload di inference più rapida della capacità delle GPU di generalizzare.
*Per “inference” si intende la fase operativa in cui un modello già addestrato viene eseguito per produrre risultati concreti a partire da nuovi input. È il momento in cui l’AI “lavora” davvero.
Prefill e decode: la separazione inevitabile
Uno degli insight chiave, sintetizzato anche da investitori vicini a Groq, è che l’inference si sta scindendo in due fasi distinte: prefill e decode. Il prefill corrisponde all’ingestione del contesto iniziale, che può includere centinaia di migliaia di token tra codice, documenti o video. È una fase compute-bound, storicamente dominata dalle GPU Nvidia.
Il decode, invece, è la generazione token-by-token, una fase memory-bandwidth bound in cui la velocità di accesso alla memoria diventa critica. È qui che le GPU tradizionali mostrano i propri limiti e dove l’architettura LPU di Groq, basata su SRAM, eccelle.
Nvidia ha già annunciato la famiglia Vera Rubin, progettata esplicitamente per questo split. Il componente Rubin CPX sarà ottimizzato per il prefill, con finestre di contesto fino a un milione di token e l’adozione di GDDR7 al posto della costosissima HBM, mentre il decode ad altissima velocità verrà affidato a silicio specializzato di derivazione Groq, mantenendo però CUDA come layer dominante.
Il ruolo strategico della SRAM
Il cuore tecnologico di Groq è la SRAM, memoria incisa direttamente nella logica del processore. A differenza di DRAM o HBM, la SRAM consente spostamenti di dati su distanze minime con consumi energetici drasticamente inferiori, rendendola ideale per il reasoning in tempo reale.
Il cuore tecnologico di Groq è la SRAM, memoria incisa direttamente nella logica del processore.
Il limite è il costo e la densità: la SRAM non scala per modelli frontier da trilioni di parametri. Tuttavia, il mercato che serve è tutt’altro che marginale. I modelli sotto gli 8 miliardi di parametri, sempre più diffusi grazie alla distillazione, sono perfetti per edge inference, robotica, voice assistant e IoT, contesti finora poco serviti dalle GPU Nvidia.
La minaccia Anthropic e lo stack portabile
Un altro fattore spesso sottovalutato è la strategia di Anthropic, che ha costruito uno stack software capace di funzionare su acceleratori diversi, dalle GPU Nvidia alle TPU Google. Questa portabilità riduce il lock-in storico che proteggeva Nvidia e consente ai grandi player di negoziare prezzo e capacità.
L’impegno di Anthropic ad accedere fino a un milione di TPU dimostra che l’ecosistema si sta preparando a un futuro multi-acceleratore. In questo contesto, l’integrazione dell’IP di Groq permette a Nvidia di difendere CUDA, assicurando che i workload più sensibili a latenza e stato rimangano all’interno del proprio perimetro tecnologico.
Stato, agenti e memoria: il legame con Manus
Il timing dell’accordo Nvidia–Groq è ancora più significativo se letto insieme alla recente acquisizione di Manus da parte di Meta. Manus ha costruito la propria proposta di valore attorno alla statefulness degli agenti, dimostrando che senza memoria persistente un agente non è utilizzabile in contesti reali come ricerca o sviluppo software.
Il KV Cache diventa così una metrica critica. Manus ha mostrato che nei sistemi agentici di produzione il rapporto input/output può arrivare a 100:1. Se lo stato viene espulso dalla memoria, il costo computazionale esplode. La SRAM di Groq può fungere da “scratchpad” ideale per questi casi, soprattutto sui modelli più piccoli, mentre Nvidia sta costruendo un vero e proprio inference operating system capace di distribuire lo stato tra SRAM, DRAM, HBM e storage flash.
Il verdetto per il 2026
Il messaggio per i leader tecnici è chiaro: il futuro dell’AI infrastructure è la specializzazione estrema. Non esiste più “una GPU per tutto”. Le architetture vincenti saranno quelle che etichettano i workload e li instradano dinamicamente: prefill contro decode, long-context contro short-context, interattivo contro batch, small model contro large model, edge contro data center.
Nel 2026, la strategia GPU smette di essere una decisione di procurement e diventa una decisione di routing. I team vincenti non chiederanno quale chip hanno comprato, ma dove ha girato ogni token e perché.





