L’intelligenza artificiale contemporanea, quella che generiamo, interroghiamo e ormai lasciamo parlare per noi, si alimenta di una risorsa straordinaria e insieme pericolosa: la nostra vita digitale. Non si tratta solo di testi, immagini, articoli o blog, ma dei nostri volti, delle identità documentate nei curriculum, dei certificati di nascita dei nostri figli, dei dati biometrici che lasciamo sulle piattaforme senza accorgercene. È quanto emerge con forza drammatica dall’audit tecnico-legale sul dataset DataComp CommonPool pubblicato nel giugno 2025 (Hong et al.) che non possiamo più permetterci di ignorare.
CommonPool raccoglie oltre 12,8 miliardi di coppie immagine-testo da snapshot web tra il 2014 e il 2022, e viene usato – direttamente o indirettamente – per addestrare modelli generativi potenti e diffusi come Midjourney o Stable Diffusion. L’audit ha mostrato che, nonostante dichiarazioni di anonimizzazione, nel dataset sono presenti milioni di informazioni personali: volti non oscurati (almeno 102 milioni), documenti identificativi, curriculum dettagliati con informazioni sensibili come l’etnia o la disabilità, perfino dati su minori e coordinate GPS provenienti dai metadati delle immagini. Le implicazioni sono enormi: in termini di privacy individuale, di tracciabilità dei dati, ma anche di legalità. Secondo il GDPR, i dati personali rimangono tali anche se pubblicamente accessibili, e non possono essere trattati liberamente solo perché si trovano online. Il concetto di “publicly available” non giustifica lo scraping indiscriminato. Eppure è proprio questa la pratica dominante nella costruzione dei dataset per l’AI.
Come sottolinea il report, molti dei contenuti presenti in CommonPool sono stati pubblicati prima dell’era delle AI generative. Dunque, anche qualora vi fosse stato un consenso implicito alla loro pubblicazione online, non è pensabile che tale consenso coprisse un uso successivo e imprevisto come l’addestramento di modelli di deep learning. È il “paradosso del consenso”: un’anomalia temporale che rende ogni forma di opt-out inefficace, perché l’utente dovrebbe sapere in anticipo che i suoi dati verranno usati in contesti futuri, ignoti e potenzialmente lesivi. In altre parole, la responsabilità non può essere scaricata sull’individuo. L’illusione di poter governare il proprio destino digitale con checkbox e pulsanti di accettazione è, ormai, un atto di fede più che un meccanismo di garanzia.
L’audit smonta anche un altro mito ricorrente: quello della pulizia automatica dei dataset. I sistemi di face blurring o di rimozione automatica delle informazioni sensibili si sono dimostrati largamente inefficaci. Il risultato? Un’esposizione sistemica e incontrollabile della nostra identità digitale a modelli che possono memorizzare e replicare informazioni personali anche dopo che i dati sono stati rimossi dalle fonti originarie. Serve un cambio di paradigma. Dobbiamo passare da una logica ex post di mitigazione tecnica – con filtri imperfetti – a un’architettura ex ante di prevenzione normativa, trasparenza delle fonti e tracciabilità delle responsabilità. Questo significa definire nuovi standard legali sul concetto stesso di “dato pubblico” e introdurre obblighi di audit indipendenti e pubblici per tutti i dataset destinati all’addestramento di modelli di AI generativa.
Il caso CommonPool rivela un ecosistema senza controllo centrale. Il ciclo di vita dei dati – da chi li genera a chi li sfrutta per addestrare o distribuire modelli – è frammentato e opaco. I curatori dei dataset non sono responsabili per gli sviluppatori dei modelli. Gli sviluppatori non tracciano l’origine dei dati. Gli utenti finali utilizzano modelli senza sapere da dove provengano le loro competenze. Nessuno ha la visione d’insieme. Nessuno ha il dovere – o la possibilità – di garantire che le informazioni personali siano state trattate nel rispetto delle leggi e della dignità delle persone. Floridi ci ricorda che la responsabilità nell’era digitale è sempre più “diffusa, ma non dissolta”. Serve una riconfigurazione della governance dei dati in chiave etica, legale e tecnica. E serve subito. Ciò che il caso CommonPool ci insegna è che la questione della privacy nell’era dell’intelligenza artificiale non è (più) una questione individuale, ma sistemica. Non possiamo più accontentarci di licenze “open”, di filtri automatici o di una nozione riduttiva di dato pubblico. Se vogliamo costruire un futuro digitale credibile e giusto, dobbiamo restituire dignità al dato personale e responsabilità a ogni anello della filiera dell’AI. Altrimenti, continueremo a costruire intelligenze artificiali sulle fondamenta fragili della nostra inconsapevolezza.