Negli ultimi mesi l’attenzione della ricerca e del mercato si è concentrata su una nuova categoria di intelligenze artificiali, i cosiddetti Large Reasoning Models (LRM). A differenza dei loro predecessori, i Large Language Models, questi sistemi non si limitano a produrre risposte ma generano catene di ragionamento intermedio, simulando un processo di pensiero articolato e talvolta corredato da meccanismi di auto-riflessione. L’idea che ne deriva è potente: se i modelli linguistici sanno già “parlare”, i modelli di ragionamento potrebbero davvero iniziare a “pensare”. Una narrazione suggestiva, che però rischia di confondere la complessità del testo con l’autenticità del ragionamento.
Uno studio recente, condotto da un gruppo di ricercatori di Apple, ha messo alla prova questa promessa con un approccio originale. Invece di limitarsi ai consueti benchmark matematici e di programmazione, spesso viziati da contaminazioni nei dati di addestramento, gli autori hanno scelto di utilizzare puzzle controllabili – come la Torre di Hanoi, il River Crossing o il Blocks World – che consentono di graduare con precisione la complessità e di verificare passo dopo passo la correttezza delle soluzioni. In questi ambienti, non basta produrre l’output finale: occorre rispettare regole chiare, seguire algoritmi deterministici e dimostrare capacità di pianificazione. È qui che l’illusione del pensiero comincia a incrinarsi.
Bassa complessità: i modelli standard (senza “thinking”) si dimostrano più accurati ed efficienti dei LRM.
Media complessità: i LRM prendono un vantaggio, grazie a catene di pensiero più articolate e a una maggiore resilienza.
Alta complessità: entrambi i modelli collassano; l’accuratezza crolla a zero e i LRM riducono lo sforzo di ragionamento invece di aumentarlo.
L’analisi ha evidenziato infatti tre regimi distinti. Nei compiti semplici, paradossalmente, i modelli standard risultano più affidabili. A complessità intermedia i LRM riescono a esplorare più soluzioni e a guadagnare un vantaggio relativo. Ma quando la difficoltà cresce oltre una certa soglia, nessuno dei due approcci resiste: l’accuratezza scende a zero e le catene di pensiero si accorciano invece di estendersi, come se l’algoritmo rinunciasse a “provare ancora”.
Lo studio ha poi analizzato in dettaglio le tracce di pensiero generate dai modelli. Nei puzzle più semplici si osserva l’“overthinking”: la soluzione corretta appare presto, ma il modello continua a produrre ipotesi sbagliate. Nei compiti mediamente complessi, le prime ipotesi sono errate e solo dopo lunghi tentativi emerge la soluzione valida. Nei casi difficili, infine, il collasso è totale: nessuna traccia corretta. Ancora più sorprendente è che persino fornendo l’algoritmo esatto – ad esempio la procedura risolutiva della Torre di Hanoi – i modelli non riescono a eseguirlo con coerenza, segno della loro fragilità nel seguire passaggi sequenziali e simbolici.
Le implicazioni sono rilevanti. Da un lato, i LRM rappresentano un progresso reale: a complessità intermedia mostrano un comportamento più flessibile. Dall’altro, la loro incapacità di generalizzare procedure o di eseguire algoritmi elementari solleva interrogativi profondi sulla natura del loro “ragionare”. Non si tratta di un pensiero in senso forte, ma di un’elaborazione statistica che imita la forma del ragionamento senza possederne la sostanza.
Di fronte a questi risultati, occorre prudenza. Non basta moltiplicare i dati o allungare le catene di pensiero per ottenere un salto qualitativo. Se davvero vogliamo costruire sistemi in grado di affrontare problemi complessi, sarà necessario integrare nuove architetture, meccanismi di verifica, capacità simboliche e forme di apprendimento ibride. Fino ad allora, l’illusione del pensiero rischia di alimentare aspettative sproporzionate e di favorire un impiego acritico di modelli che, pur sofisticati, restano strutturalmente limitati.
La lezione è chiara: più che di macchine pensanti, siamo di fronte a generatori di apparenze. Non una mente che ragiona, ma uno specchio che amplifica le nostre proiezioni. L’illusione del pensiero non è soltanto un fenomeno tecnico, ma anche culturale: riguarda il nostro bisogno di credere che l’intelligenza possa essere simulata fino a diventare reale. Per questo, più che mai, serve un atteggiamento critico che distingua tra promessa e realtà, tra la retorica del progresso e i limiti che la scienza, con rigore, continua a mettere in luce.