Intelligenza artificiale: come ottenere una risposta alle domande che non dovremmo fare
Quando si pongono delle domande particolarmente sensibili agli algoritmi di intelligenza artificiale, spesso si ottengono risposte vaghe o, ancora più frequentemente, l’ammissione che l’AI non è programmata per fornire un simile riscontro. Tuttavia, forse far rispondere un’intelligenza artificiale a una domanda che non si dovrebbe fare è molto più semplice di quanto si possa pensare: …
Quando si pongono delle domande particolarmente sensibili agli algoritmi di intelligenza artificiale, spesso si ottengono risposte vaghe o, ancora più frequentemente, l’ammissione che l’AI non è programmata per fornire un simile riscontro.
Tuttavia, forse far rispondere un’intelligenza artificiale a una domanda che non si dovrebbe fare è molto più semplice di quanto si possa pensare: esistono infatti molte tecniche di jailbreak che i ricercatori stanno testando. Quelli di Anthropic, in particolar modo, ne hanno appena trovata una nuova e molto semplice da applicare: un modello linguistico di grandi dimensioni può infatti essere convinto a dire cose piuttosto controverse (come costruire una bomba) se prima gli si pongono alcune decine di domande meno “dannose”.
I ricercatori chiamano questo approccio “many-shot jailbreaking” e hanno scritto un articolo al riguardo, informando naturalmente tutti i colleghi ricercatori impegnati attivamente nel business dell’AI in modo da poterlo mitigare in qualche modo.
Da cosa dipende la vulnerabilità dei modelli di intelligenza artificiale
Secondo il paper dei ricercatori, questa vulnerabilità deriverebbe dall’aumento della “finestra di contesto” dell’ultima generazione di LLM, ovvero della quantità di dati che possono contenere in quella che si potrebbe definire la propria memoria a breve termine. Sebbene un tempo questa memoria di breve durata potesse riguardare solo poche frasi, ora può invece farlo con migliaia di parole e persino interi libri.
Ebbene, i ricercatori di Anthropic con i loro test hanno potuto scoprire che questi modelli con ampie finestre di contesto tendono a ottenere risultati migliori in molti compiti se all’interno del prompt ci sono molti esempi di quel compito.
Per esempio, se nel prompt ci sono molte domande banali, le risposte tendono a migliorare nel tempo. Pertanto, un fatto che avrebbe potuto essere sbagliato o “vietato” se fosse elaborato con la prima domanda, potrebbe essere corretto se fosse in realtà elaborato in seguito alla centesima domanda dello stesso tipo o di un tipo molto simile.
Insomma, questo modello di apprendimento ha un funzionamento tale per cui, con il passare del tempo, diventa migliore nel rispondere anche a domande inappropriate.
Per comprenderlo ancora meglio, i ricercatori hanno elaborato un esempio concreto: se si prende un modello e gli si chiede come costruire una bomba, si rifiuterà; tuttavia, se gli si chiede di rispondere ad altre 99 domande di minore gravità, e solo dopo gli si domanda come costruire una bomba, allora è molto più probabile che risponda.
Ma perché succede tutto questo?
La verità è che, per ammissione degli stessi analisti, non c’è nessuno che lo capisca bene. Si può tuttavia intuire che all’interno del modello di apprendimento vi sia un meccanismo che gli permetta di individuare ciò che l’utente vuole. Se dunque l’utente vuole un gioco a premi, il modello tende ad attivare gradualmente una maggiore potenza latente di gioco a mano a mano che si pongono decine di domande. Per qualche motivo, la stessa cosa accade con gli utenti che chiedono decine di risposte inappropriate.
Come abbiamo già anticipato qualche riga fa, il team ha già informato i propri colleghi e anche le società concorrenti della vulnerabilità che scaturisce in seguito a questo attacco, sperando in questo modo di contribuire attivamente alla promozione di una cultura – si legge nel comunicato – “in cui exploit come questo siano condivisi apertamente tra i fornitori di LLM e i ricercatori”.
Per quanto riguarda la mitigazione degli effetti di questo rischio, i ricercatori hanno poi scoperto come, sebbene la limitazione della finestra di contesto sia utile, abbia anche un effetto negativo sulle prestazioni del modello. Proprio per questo motivo sono al lavoro per classificare e contestualizzare le query prima che vengano inviate al modello. Ma nemmeno questa, si intende, sembra essere una deviazione semplice da gestire…