
OpenAI sta scommettendo in modo deciso sull’audio come nuovo asse portante dell’interazione uomo-macchina. Non si tratta solo di rendere ChatGPT più naturale nella voce, ma di ripensare radicalmente modelli, prodotti e persino l’hardware che li ospiterà. Secondo un’inchiesta pubblicata da The Information, negli ultimi due mesi l’azienda ha unificato diversi team di ingegneria, prodotto e ricerca con l’obiettivo di rinnovare completamente i propri modelli audio, in vista del lancio di un dispositivo personale “audio-first” atteso entro circa un anno.
L’audio come nuova interfaccia dominante
La mossa di OpenAI riflette una tendenza ormai chiara nell’intero settore tecnologico: lo schermo sta gradualmente passando in secondo piano, mentre la voce diventa l’interfaccia primaria. Gli smart speaker hanno già reso gli assistenti vocali una presenza stabile in oltre un terzo delle case statunitensi.
Lo schermo sta gradualmente passando in secondo piano, mentre la voce diventa l’interfaccia primaria.
Nel frattempo Meta ha introdotto per i Ray-Ban smart glasses una funzione basata su un array di cinque microfoni capace di isolare le conversazioni in ambienti rumorosi, trasformando di fatto il volto dell’utente in un dispositivo di ascolto direzionale. Anche Google sta sperimentando nuove modalità di fruizione vocale con gli “Audio Overviews”, che convertono i risultati di ricerca in riassunti conversazionali.
Auto, indossabili e assistenti sempre presenti
L’adozione dell’audio non si ferma ai dispositivi domestici. Tesla sta integrando nei propri veicoli il chatbot Grok di xAI, dando vita a un assistente vocale conversazionale in grado di gestire navigazione, climatizzazione e infotainment tramite dialogo naturale. Parallelamente, numerose startup stanno esplorando form factor alternativi: dal controverso Humane AI Pin, diventato un caso di studio su come non lanciare un wearable senza schermo, fino al Friend AI pendant, che promette compagnia continua ma solleva pesanti interrogativi su privacy e sorveglianza.
Dall’anello parlante al companion digitale
La sperimentazione non si arresta. Almeno due aziende, tra cui Sandbar e una realtà guidata dal fondatore di Pebble Eric Migicovsky, stanno lavorando a anelli intelligenti basati sull’AI, previsti per il 2026, che consentirebbero di interagire vocalmente “parlando alla mano”. Cambiano le forme, ma la tesi resta la stessa: l’audio è destinato a diventare l’interfaccia del futuro, trasformando ogni ambiente – casa, auto, spazio pubblico – in una superficie di controllo invisibile ma sempre attiva.
Il nuovo modello audio di OpenAI e la visione di Jony Ive
In questo contesto si inserisce il nuovo modello audio di OpenAI, atteso per l’inizio del 2026. Secondo le indiscrezioni, sarà in grado di gestire le interruzioni come un interlocutore umano, parlare mentre l’utente sta ancora parlando e sostenere conversazioni più fluide e naturali rispetto agli standard attuali. L’azienda immagina inoltre una famiglia di dispositivi – potenzialmente occhiali o speaker senza schermo – concepiti non come semplici strumenti, ma come veri e propri companion digitali.
A dare forma a questa visione contribuisce anche Jony Ive, coinvolto nei progetti hardware di OpenAI dopo l’acquisizione da 6,5 miliardi di dollari della sua società io. Ive avrebbe individuato nell’audio-first design un’opportunità per ridurre la dipendenza dagli schermi e correggere alcuni degli eccessi dell’elettronica di consumo degli ultimi decenni. Se la scommessa avrà successo, il prossimo grande salto dell’AI potrebbe non avere nulla da mostrare, ma molto da dire.





