Notizie

Così Wikipedia sta imparando a riconoscere i testi scritti dall’AI

Chi non usa l’AI per generare testi, scagli la prima pietra! L’uso è ormai così frequente e diffuso che riconoscere un testo generato da un modello linguistico diventa ogni giorno più complesso. L’evoluzione dei Large Language Model (LLM) ha progressivamente eliminato molte delle “spie lessicali” che, fino a poco tempo fa, sembravano indicare con una certa sicurezza l’origine artificiale di un contenuto. Doppi spazi, linee orizzontali, ricorso ossessivo alle icone nei testi, paragrafo finale intitolato sempre: “Conclusione” e altro, diventati per un periodo indizi ricorrenti, non rappresentano più un segnale affidabile. L’output dei modelli di ultima generazione appare infatti sempre più fluido, contestuale e raffinato.

Nonostante ciò, esiste una comunità che, più di altre, affronta quotidianamente il problema con un livello di rigore senza pari: quella dei volontari di Wikipedia. Con milioni di contributi generati dagli utenti ogni giorno, l’enciclopedia libera è uno dei fronti più attivi nella gestione e nell’individuazione della scrittura prodotta dall’intelligenza artificiale.

Project AI Cleanup: la risposta sistematica di Wikipedia

Dal 2023, gli editor di Wikipedia hanno avviato un’iniziativa dedicata a monitorare, catalogare e mitigare l’impatto delle contribuzioni generate dall’AI: Project AI Cleanup. L’obiettivo è duplice. Da un lato, proteggere l’affidabilità dell’enciclopedia; dall’altro, comprendere meglio quali siano i pattern linguistici che contraddistinguono i contenuti scritti dai modelli.

Nel più puro stile wikipediano, il progetto ha portato alla creazione di una guida dettagliata — pubblica e costantemente aggiornata — che rappresenta oggi una delle analisi più solide e sistematiche disponibili sul tema. Il documento, noto informalmente come “Signs of AI writing”, si distingue per rigore empirico e chiarezza, offrendo a editor e lettori un vero e proprio vademecum di rilevazione.

Perché gli strumenti automatici non bastano

Il primo punto evidenziato dalla guida conferma una verità già nota agli addetti ai lavori: gli strumenti automatici di detection sono fondamentalmente inaffidabili. I modelli linguistici evolvono troppo rapidamente, e ciò che oggi sembra un indicatore certo domani può diventare irrilevante.

Gli strumenti automatici di detection sono fondamentalmente inaffidabili.

Per questo, Wikipedia adotta un approccio più antropologico e meno algoritmico: non si cerca la prova matematica che un testo sia generato dall’AI, ma si individua la presenza di schemi linguistici ricorrenti, poco compatibili con lo stile enciclopedico o con le fonti indipendenti.

I pattern ricorrenti della scrittura dei modelli

Secondo Wikipedia, uno dei segnali più diffusi è l’enfasi non necessaria sull’importanza del soggetto trattato. I LLM tendono spontaneamente a contestualizzare e valorizzare un tema in termini generici, con frasi che sottolineano “un momento cruciale”, “una tappa significativa” o “un contributo fondamentale a un più ampio movimento”. Si tratta di formule tipiche dei contenuti promozionali o divulgativi generalisti, ma estremamente rare nella scrittura accademica o nelle fonti secondarie su cui Wikipedia basa la sua autorevolezza.

Un’altra caratteristica ricorrente è la tendenza a elencare apparizioni mediatiche minori come se fossero prove di rilevanza. È un comportamento coerente con la logica dei modelli, che attingono a un ampio corpus di biografie auto-narrate o testi promozionali. Tuttavia, su Wikipedia, questo tipo di informazioni rappresenta un serio campanello d’allarme: sono esattamente il genere di elementi che gli editor esperti si affannano a eliminare quotidianamente per evitare la trasformazione delle voci in contenuti autoreferenziali.

Il “linguaggio da spot televisivo”: un altro indizio chiave

Gli editor di Wikipedia segnalano inoltre una presenza marcata di linguaggio vago e iperbolico, tipico della pubblicità o del marketing digitale. L’AI tende ad abbondare in aggettivi come “sensazionale” o “mozzafiato”, anche quando non sono supportati da fonti o non aggiungono alcun valore descrittivo.

Ricorrono, inoltre, parole ad alta neutralità semantica: “approccio”, “contesto”, “dinamiche”, “prospettiva”, “valorizzare”, “sfide”, “scenario” oppure aggettivi vaghi: “significativo”, “strategico”, “fondamentale”, “complesso”.  Il risultato è un linguaggio semanticamente corretto ma a bassa densità informativa concreta.

Questo tipo di registro è molto raro in un contesto enciclopedico, ma onnipresente nel materiale su cui gli LLM vengono addestrati, come recensioni online, post promozionali o articoli generalisti.

Ricorrono, inoltre, parole ad alta neutralità semantica e aggettivi vaghi

Una consapevolezza che cambia il panorama informativo

La guida di Wikipedia non è soltanto uno strumento interno: rappresenta un passo significativo verso una maggiore alfabetizzazione collettiva nella lettura dei contenuti digitali. Finora, l’evoluzione rapida dei modelli sembrava rendere impossibile la definizione di indicatori affidabili. Tuttavia, la ricerca condotta dagli editor mostra che esistono abitudini espressive profonde, radicate nella natura stessa dell’addestramento dei modelli, difficili da eliminare del tutto.

Se il pubblico inizierà a riconoscere questi segnali, potremmo assistere a un cambiamento significativo nel modo in cui la scrittura viene valutata, verificata e contestualizzata online. In un ecosistema mediatico in cui i confini tra contenuto umano e contenuto generato si fanno sempre più fluidi, strumenti come questo rappresentano un contributo cruciale alla trasparenza e alla qualità dell’informazione.

Dal mio punto di vista, ovvero da chi ogni giorno scrive per lavoro, l’apporto degli LLM rappresenta un aiuto preziosissimo e da non demonizzare assolutamente. Va chiarito che la bravura di chi scrive sta nell’utilizzo della tecnologia al servizio delle proprie idee. I problemi nascono quando l’umano delega alla macchina anche il controllo e la creazione di materiali su argomenti che non conosce e che quindi non può verificare.

Business Development Manager at Dynamo, Author Manuale di Equity Crowdfunding, Angel Investor in CrossFund, Journalist, Crowdfunding Marketing Strategist, Startup-News.it founder, IED Lecturer.

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.