Negli ultimi anni i Large Language Models (LLM) hanno conosciuto un’espansione straordinaria, fino a diventare la tecnologia simbolo della nuova stagione dell’intelligenza artificiale. La loro forza risiede nella capacità di ricostruire sequenze linguistiche in maniera plausibile, prevedendo il “prossimo token” sulla base di miliardi di parametri e di corpora testuali di dimensioni senza precedenti. Eppure, questa architettura di fondo – l’autoregressione nello spazio degli input – mostra anche limiti evidenti: i modelli tendono a privilegiare la superficie linguistica rispetto alla struttura concettuale sottostante, generando risposte fluide ma talvolta fragili dal punto di vista del ragionamento.
Un recente lavoro di Hai Huang, Yann LeCun e Randall Balestriero (LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures, 2025) introduce un cambio di prospettiva radicale. L’articolo propone infatti di importare nel mondo del linguaggio un paradigma che in visione artificiale ha già prodotto risultati significativi: le Joint Embedding Predictive Architectures (JEPA). Queste ultime non si limitano a ricostruire i dati nello spazio degli input, ma apprendono a prevedere relazioni nello spazio delle rappresentazioni, mettendo in corrispondenza diverse “viste” di uno stesso contenuto. L’ipotesi di fondo è semplice quanto potente: se due forme di rappresentazione esprimono lo stesso sapere – ad esempio una descrizione in linguaggio naturale e il corrispondente codice SQL – allora un modello dovrebbe imparare a riconoscerle come equivalenti a livello semantico.
La novità del lavoro sta nell’aver formulato un obiettivo ibrido, denominato LLM-JEPA, che integra due componenti. Da un lato, si mantiene la classica loss autoregressiva (next token prediction), necessaria a preservare le capacità generative del modello. Dall’altro, si introduce una loss addizionale in embedding space, che costringe il modello a ridurre la distanza tra rappresentazioni linguistiche e rappresentazioni alternative della stessa conoscenza (testo e codice, descrizioni e parafrasi, issue testuali e corrispondenti diff su GitHub). L’effetto è quello di rafforzare le competenze astrattive del modello senza sacrificare le sue abilità di generazione.
I risultati empirici confermano la bontà di questo approccio. Su benchmark consolidati come NL-RX, GSM8K, Spider e RottenTomatoes, i modelli addestrati con LLM-JEPA superano sistematicamente i baseline tradizionali, sia in scenari di fine-tuning sia in contesti di pretraining da zero. Inoltre, le architetture sperimentate (Llama, Gemma, OpenELM, Olmo) mostrano un vantaggio costante, a testimonianza della generalità della soluzione. Un aspetto particolarmente rilevante è la ridotta propensione all’overfitting: a differenza del training autoregressivo puro, LLM-JEPA continua a migliorare le proprie prestazioni con l’aumentare delle epoche, suggerendo una migliore robustezza statistica.
Dal punto di vista applicativo, l’approccio apre scenari interessanti. L’idea di trattare testo e codice come due viste diverse della stessa informazione potenzia le capacità dei modelli in compiti di traduzione semantica complessa (text-to-SQL, generazione di espressioni regolari, traduzione codice-linguaggio naturale), ma anche in ambiti più ampi come il ragionamento matematico, il problem solving e l’analisi di issue software. Laddove il paradigma autoregressivo rischia di restare vincolato a un output linguistico, il paradigma JEPA rafforza la capacità di “catturare” la struttura del sapere.
Non mancano tuttavia i limiti. L’addestramento con LLM-JEPA comporta un costo computazionale maggiore, stimato in circa tre volte superiore rispetto alle procedure standard, poiché per ogni vista occorre un forward pass dedicato. Inoltre, l’introduzione di nuovi iperparametri (λ, k) complica le strategie di tuning, già onerose nei modelli di grandi dimensioni. Ma la sfida più ambiziosa resta quella della generalizzazione delle viste: se nei casi di testo-codice o di parafrasi è naturale definire coppie di rappresentazioni, più complesso è estendere l’approccio a corpora puramente testuali, dove occorre ideare forme di “data augmentation semantica” capaci di simulare viste alternative di uno stesso contenuto.
Le implicazioni teoriche di questo lavoro sono notevoli. Si supera la visione dei modelli linguistici come macchine di pura generazione e si apre la strada a sistemi capaci di apprendere relazioni astratte e regolarità strutturali, in linea con la prospettiva di LeCun su un’intelligenza artificiale predittiva e autonoma. In questo senso, LLM-JEPA rappresenta una risposta a una delle critiche più ricorrenti verso i LLM: la loro tendenza a produrre risposte verosimili ma deboli sul piano concettuale. Portare nel linguaggio ciò che in visione ha già funzionato significa tentare di avvicinare l’IA non solo alla padronanza del testo, ma a una comprensione più profonda delle relazioni che lo attraversano.
La conclusione degli autori è prudente ma visionaria. LLM-JEPA non sostituisce gli obiettivi generativi tradizionali, bensì li integra, rafforzandone la portata e ponendo le basi per una nuova stagione di ricerca. Se i costi computazionali e le difficoltà metodologiche saranno progressivamente mitigati, questo approccio potrà ridefinire il modo in cui pensiamo l’apprendimento dei modelli linguistici: non più soltanto generatori di sequenze, ma sistemi in grado di organizzare lo spazio semantico in forme predittive e regolari. In altre parole, non macchine che “scrivono testi”, ma intelligenze che apprendono strutture.