MercatoNotizie

Nvidia lancia DreamDojo: il cervello AI che insegna ai robot osservando l’uomo

Un team di ricercatori guidato da Nvidia ha presentato DreamDojo, un nuovo sistema di intelligenza artificiale progettato per insegnare ai robot a interagire con il mondo fisico osservando decine di migliaia di ore di video umani. Il progetto, sviluppato in collaborazione con UC Berkeley, Stanford, University of Texas at Austin e altri istituti accademici, introduce quello che il team definisce “il primo robot world model del suo genere capace di dimostrare una forte generalizzazione verso oggetti ed ambienti eterogenei dopo il post-training”.

La pubblicazione arriva in un momento cruciale per il mercato della robotica umanoide e per l’ecosistema AI globale, caratterizzato da investimenti infrastrutturali senza precedenti e da una crescente convergenza tra modelli generativi, simulazione fisica e automazione industriale.

Architettura a due fasi: pre-training su dati umani, fine-tuning sul robot target

DreamDojo si fonda su un’architettura di training in due fasi, progettata per superare uno dei principali colli di bottiglia della robotica: la necessità di grandi volumi di dati specifici per ciascuna piattaforma hardware.

Nella prima fase, il sistema “acquisisce conoscenza fisica completa da dataset umani su larga scala tramite pre-training con latent actions”. In altre parole, il modello apprende dinamiche fisiche, relazioni oggetto-ambiente e pattern di interazione osservando video egocentrici umani, senza necessità di dati robotici diretti. Nella seconda fase, il modello viene sottoposto a post-training “sull’embodiment target con azioni robotiche continue”, adattando la conoscenza generale alla cinematica e ai vincoli specifici dell’hardware.

DreamDojo rappresenta un tassello chiave nella trasformazione di Nvidia da gaming giant a infrastruttura portante dell’AI fisica

Per le imprese che valutano l’adozione di robot umanoidi, questo approccio rappresenta un cambio di paradigma: invece di raccogliere costosi dataset di dimostrazioni robot-specifiche in ambienti controllati, è possibile sfruttare enormi archivi di video umani già disponibili. Il risultato è una riduzione significativa dei costi di data acquisition e una potenziale accelerazione del time-to-deployment.

DreamDojo-HV: 44.000 ore di video per costruire intuizione fisica

Al centro del sistema c’è DreamDojo-HV, definito dai ricercatori come “il più grande dataset mai utilizzato per il pre-training di un world model robotico”. Il corpus comprende 44.000 ore di video egocentrici umani, con una scala senza precedenti: 15 volte la durata del precedente dataset più esteso per world model training, 96 volte il numero di skill e 2.000 volte il numero di scene.

Addestrando il modello su migliaia di scene e quasi 100 skill distinte, il team punta a mitigare la fragilità tipica dei sistemi robotici addestrati in ambienti altamente controllati

Dal punto di vista tecnico, l’obiettivo è costruire una forma di physical intuition generalizzata. Addestrando il modello su migliaia di scene e quasi 100 skill distinte, il team punta a mitigare la fragilità tipica dei sistemi robotici addestrati in ambienti altamente controllati. In contesti reali — fabbriche, magazzini, ambienti domestici — le variazioni di illuminazione, oggetti e ostacoli rendono spesso inefficaci le policy addestrate in laboratorio. DreamDojo tenta di colmare questo gap attraverso una generalizzazione cross-domain.

Real-time interaction e distillation: verso applicazioni operative

Uno dei breakthrough tecnici più rilevanti riguarda la velocità. Attraverso un processo di distillation, i ricercatori hanno ottenuto interazioni in tempo reale a 10 FPS per oltre un minuto. Questo abilita use case concreti come teleoperazione live e model-based planning in fase di esecuzione.

Il sistema è stato testato su diverse piattaforme humanoid, tra cui GR-1, G1, AgiBot e YAM, dimostrando “realistic action-conditioned rollouts” su un’ampia gamma di ambienti e interazioni oggetto-manipolazione. La capacità di generare simulazioni coerenti condizionate all’azione rappresenta un asset strategico per la validazione delle policy prima del deployment fisico.

Per i decision maker tecnici, il valore immediato risiede proprio nella simulazione avanzata: policy evaluation affidabile senza deployment reale e possibilità di miglioramento test-time tramite model-based planning. In termini di risk mitigation, ciò si traduce in minori costi di test, riduzione degli errori hardware e accelerazione dei cicli di iterazione.

Il contesto macro: Nvidia e la nuova infrastruttura dell’AI fisica

Il lancio di DreamDojo si inserisce in una strategia più ampia di Jensen Huang, CEO di Nvidia, che al World Economic Forum di Davos ha definito la robotica AI una opportunità “once-in-a-generation”, in particolare per regioni con forte vocazione manifatturiera. Secondo quanto riportato da Digitimes, Huang ha indicato il prossimo decennio come “un periodo critico di sviluppo accelerato per la tecnologia robotica”.

Jensen Huang, CEO di Nvidia
Jensen Huang, co-fondatore e Ceo di Nvidia parla a Taipei. (Photo by I-Hwa Cheng / AFP)

Le implicazioni finanziarie sono altrettanto rilevanti. In un’intervista a CNBC durante il programma “Halftime Report” del 6 febbraio, Huang ha sostenuto che i capital expenditures del settore tech — potenzialmente fino a 660 miliardi di dollari quest’anno da parte dei principali hyperscaler — siano “giustificati, appropriati e sostenibili”, definendo l’attuale fase “la più grande buildout infrastrutturale della storia umana”.

In questo scenario, colossi come Meta, Amazon, Google e Microsoft stanno incrementando in modo significativo la spesa AI. Parallelamente, le startup della robotica hanno raccolto 26,5 miliardi di dollari nel 2025 secondo Dealroom, mentre gruppi industriali europei come Siemens, Mercedes-Benz e Volvo hanno annunciato partnership strategiche nel settore.

Anche Elon Musk ha dichiarato che l’80% del valore futuro di Tesla potrebbe derivare dai robot umanoidi Optimus, segnalando un shift strutturale nella percezione del potenziale economico della robotica.

Dalla GPU al robot umanoide: la nuova traiettoria strategica

DreamDojo rappresenta un tassello chiave nella trasformazione di Nvidia da gaming giant a infrastruttura portante dell’AI fisica. Se in passato il core business era legato a GPU per PC e gaming, oggi la narrativa aziendale è centrata su AI infrastructure, data center e, sempre più, robotics.

Gli investimenti miliardari in player come Anthropic e l’intenzione di partecipare ai round futuri di OpenAI indicano una strategia di integrazione verticale lungo l’intera catena del valore AI: dal chip al foundation model, fino all’embodiment fisico.

Se DreamDojo riuscirà a tradursi in prodotti commerciali scalabili è ancora da verificare. Tuttavia, il messaggio strategico è chiaro: il futuro del computing non sarà esclusivamente digitale. Sarà fisico, embodied e integrato nei processi industriali. Le 44.000 ore di video umani su cui si basa DreamDojo non sono solo un benchmark tecnico, ma l’espressione di una tesi industriale precisa: i robot possono apprendere il mondo osservando come noi lo abitiamo. E questa osservazione, trasformata in modello, potrebbe ridefinire l’economia dell’automazione nel prossimo decennio.

StartUP-NEWS.it è scritta, ideata e portata avanti da persone che sono prima di tutto startupper di se stesse, giornalisti e liberi professionisti che ogni giorno si scontrano e incontrano in prima persona con le problematiche e le realtà che decidiamo di raccontare.

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.