Negli ultimi anni i modelli linguistici di grandi dimensioni (Large Language Models, LLM) hanno conquistato l’immaginario collettivo, generando stupore e timori. La tentazione, spesso alimentata da una narrativa frettolosa, è attribuire loro qualità che non possiedono: pensiero, coscienza, introspezione. Eppure, dietro la loro fluidità linguistica, non c’è alcuna scintilla cognitiva. C’è piuttosto un meccanismo rigorosamente statistico, reso potente dalla disponibilità di enormi quantità di dati e da capacità computazionali prima impensabili.
Il salto tecnologico non è stato concettuale: gli algoritmi di base erano già noti. La svolta è stata nell’ottimizzazione su scala, cioè la possibilità di applicare metodi teorici a volumi di dati immensi. L’elemento decisivo è stata la trasformazione del linguaggio in geometria.
Il processo comincia con la tokenizzazione, la scomposizione di testi in unità minime — i token — che possono essere parole, sillabe o frammenti di parola. Su queste unità si calcolano le co-occorrenze, cioè la frequenza con cui due token compaiono vicini nei dati. Da qui nasce una rappresentazione geometrica: ogni parola diventa un punto in uno spazio multidimensionale, vicino ad altri punti se usata in contesti simili, lontano se estranea. Questa geometria non è inventata dal modello: è intrinseca ai dati.
La statistica ha il compito di rendere visibile questa struttura nascosta. Così il linguaggio, da sequenza lineare di segni, diventa una mappa spaziale. È qui che entra in gioco l’architettura dei transformer e i meccanismi di self-attention, capaci di calcolare relazioni tra tutti i token in un contesto e di ottimizzare miliardi di parametri per stimare la probabilità del token successivo.
La vera forza degli LLM non è nell’immaginare l’inedito, ma nell’interpolare. Pensiamo a un puzzle già quasi completato: quando mancano pochi pezzi, la mente umana sceglie quello più plausibile osservando il contesto. Gli LLM fanno lo stesso. Dato un nuovo testo, essi individuano una posizione nello spazio linguistico vicina a quelle già esplorate e completano la sequenza in modo coerente. Non creano dal nulla: riempiono i vuoti basandosi sulle somiglianze statistiche con ciò che hanno già visto.
La fluidità che percepiamo deriva proprio da questa interpolazione. È un’abilità potentissima perché permette di generalizzare a partire da esempi parziali, ma resta confinata all’ambito della somiglianza statistica, non della comprensione concettuale.
Nella fase di generazione, il modello seleziona ogni volta un token dalla distribuzione stimata: può scegliere quello più probabile (greedy decoding) oppure campionare con maggiore “temperatura”, introducendo varietà stilistica. Questo spiega perché i testi prodotti possano apparire più creativi o più prevedibili a seconda delle impostazioni. In ogni caso, ciò che resta costante è la natura del processo: una sequenza di scelte probabilistiche.
A rendere il risultato convincente contribuisce anche l’addestramento specifico sullo stile: oltre a stimare la plausibilità delle parole, i modelli sono allenati a produrre testi ben formati, coerenti, persuasivi. Da qui nasce quella che possiamo chiamare epistemia, l’illusione di conoscenza: un testo scorrevole sembra intelligente, anche se non contiene verità verificata.
Il rischio maggiore non è nei modelli stessi, ma nel modo in cui li interpretiamo. Confondere fluidità con intelligenza significa ripetere lo stesso errore che i modelli compiono: completare i vuoti con supposizioni plausibili, scambiandole per profondità. È un paradosso speculare: l’IA compone testi plausibili senza sapere, e molti commentatori inventano spiegazioni filosofiche senza capire.
Gli LLM funzionano perché sanno sfruttare la geometria del linguaggio già inscritta nei dati. È un’operazione di modellizzazione e interpolazione statistica su scala gigantesca, non un atto cognitivo. La loro potenza non va sottovalutata: permette applicazioni impensabili fino a pochi anni fa. Ma è altrettanto cruciale non sopravvalutarli, per non cadere nell’illusione che la scorrevolezza equivalga a comprensione.
Dietro il fascino delle parole generate non c’è coscienza, né pensiero, né intuizione. C’è la matematica invisibile della statistica e della geometria dei dati. E forse, la sfida più urgente, non è interrogarsi su cosa i modelli “pensino”, ma su come noi scegliamo di interpretare e usare i loro risultati.