Addestramento IA e Copyright: l'interazione tra l'AI Act e la direttiva CDSM

Massimo Zanolla
5 mag
Tempo di lettura: 8 min

Note per il lettore

Al fine di garantire la comprensione dell’articolo si rendono necessarie alcune precisazioni. Si noti, innanzitutto, che il testo dell’art. 4 della direttiva 2019/790 non fa alcun riferimento ad un meccanismo di «opt-out» e il termine non sembra, almeno a parere dello scrivente, essere un sinonimo diretto di «riserva». Tuttavia, ai fini del presente testo, i due termini saranno utilizzati in modo intercambiabile, al fine di allinearsi meglio alle diverse terminologie adottate dagli studiosi.

In secondo luogo, si tenga presente l’esistenza di un dibattito in merito alla classificazione dell'estrazione di dati per l'addestramento di sistemi di IA generativa come «Text and Data Mining». Tuttavia questo articolo, sulla base di quanto incluso dal legislatore nel considerando 105 dell’AI Act, si baserà su tale classificazione.

Introduzione

Il rapido sviluppo dell'Intelligenza Artificiale Generativa (GenAI) si basa sull'acquisizione di enormi datasets dal web, incluso lo scraping sistematico di opere protette da copyright. Ciò da luogo ad una tensione normativa con il dovere costituzionale, sancito dall'art. 17(2) della Carta dei Diritti Fondamentali dell'Unione Europea, di garantire la protezione della proprietà intellettuale. Al fine di individuare un bilanciamento con l'innovazione, l'eccezione di cui all'art. 4, par. 3, della direttiva 2019/790 sul diritto d'autore e sui diritti connessi nel mercato unico digitale (direttiva CDSM) consente l'estrazione di testo e di dati (c.d. Text and Data Mining, o TDM) per fini commerciali, a meno che ciò non sia espressamente riservato dai titolari dei diritti «in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata». Riconoscendo le difficoltà nell’applicazione della normativa, l’art. 53 del Regolamento sull'intelligenza artificiale (AI Act) introduce obblighi di trasparenza, richiedendo ai fornitori di modelli di IA per finalità generali (GPAI) di pubblicare una sintesi «sufficientemente dettagliata» dei propri dati di addestramento (art. 53(1)(d)). Nella brevità del presente articolo si vogliono evidenziare i limiti di entrambi i quadri normativi nel garantire ai singoli creatori l'esercizio di un effettivo diritto di opt-out – o, più precisamente, di riserva – in materia di TDM. Ciò che emerge è che i requisiti di trasparenza dell’AI Act appaiono fungere da semplici obblighi procedurali, in quanto insufficienti a proteggere i creatori da un impianto normativo sottostante che rimane strutturalmente e tecnicamente imperfetto.

I. Criticità tecniche e legali del meccanismo di opt-out nella direttiva CDSM

La direttiva CDSM, permettendo il TDM a scopo commerciale, salvo che l'utilizzo di specifiche opere non sia stato espressamente riservato, stabilisce un regime di licenza de facto, dove il silenzio di un autore è legalmente presunto come consenso. Tale inversione pone un onere significativo in capo ai titolari dei diritti. A differenza dei grandi aggregatori di contenuti, i singoli autori mancano delle risorse per monitorare continuamente il web, applicando invece «[gli] opt-outs manualmente a ogni nuova opera, spesso tra piattaforme che non controllano» (Lucchi, p. 58). Pertanto, se osservato da tale prospettiva, il meccanismo di opt-out costituisce un ostacolo procedurale che rischia di lasciare gli autori in una posizione di vulnerabilità giuridica, nonché di svantaggio economico.

Il problema è ulteriormente aggravato da un'altra lacuna. L'art. 4 CDSM non stabilisce uno standard tecnico e legale universale per la definizione di un opt-out «appropriato» o «leggibile in maniera automatizzata». Nell'assenza di una soluzione armonizzata, ciò che appare è uno scenario frammentato, con vari e differenti protocolli. Gli autori sono pertanto costretti a navigare tra un mosaico di strumenti che risultano in gran parte problematici. I protocolli disponibili, come il tradizionale robots.txt, o altri standard «location-based», non sono in grado di proteggere un contenuto che è ospitato fuori dalla piattaforma controllata dal titolare dei diritti. Allo stesso modo, i controlli «unit-level», come le C2PA content credentials o gli IPTC metadata tags, offrono una protezione limitata, in quanto i metadati incorporati in tali sistemi possono essere facilmente cancellati, persi o rimossi qualora i file digitali vengano riformattati o trasferiti su piattaforme di terze parti. Inoltre, i web crawlers possono bypassare o semplicemente ignorare tali segnali, non essendo essi vincolanti.

Lo scenario descritto supra rischia di dar luogo ad ambiguità e incertezza del diritto, come evidenziato dalla sentenza Kneschke contro LAION della Corte d’appello di Amburgo. Nel valutare l’applicazione dell’art. 4(3) CDSM ad un caso riguardante l’utilizzo dell’immagine di un fotografo da parte di un’organizzazione no-profit, il tribunale ha esaminato l’efficacia di una riserva di utilizzo redatta in «linguaggio naturale» – i.e. senza l’utilizzo dei suddetti strumenti – sul sito internet da cui l’immagine era stata estratta. Il tribunale ha osservato che la riserva era troppo generica e, pertanto, inadatta all’interpretazione da parte dei sistemi di scraping basati sull’IA. Lo standard è quindi quello di una riserva d’uso che deve essere «interpretabile» dalla macchina, riconosciuto che, una volta soddisfatto tale requisito, anche una frase in linguaggio naturale può essere idonea a garantire i diritti di opt-out. In tale situazione, l’onere della prova ricade interamente sul titolare dei diritti. Ne consegue che la valutazione deve essere effettuata caso per caso, tenendo conto dello stato dell’arte della tecnologia disponibile.

Alla luce delle questioni sopra sintetizzate, risulta quindi evidente che il meccanismo previsto dall’art. 4, par. 3, della direttiva CDSM sia intrinsecamente problematico e comporti notevoli difficoltà di applicazione.

II. L'AI Act: un problema a monte

Al fine di agevolare l’esercizio del diritto di riserva da parte dei titolari dei diritti, il legislatore europeo ha tentato di risolvere la questione attraverso l'AI Act. Come previsto anche dall’art. 53(1)(c), i fornitori di modelli di GPAI sono tenuti ad attuare politiche che garantiscano il rispetto della normativa dell’Unione in materia di copyright. In concreto, ciò richiede ai fornitori di identificare e rispettare le riserve di diritti espresse ai sensi dell’articolo 4(3) CDSM utilizzando «tecnologie all’avanguardia». Sebbene tale disposizione miri a colmare proattivamente il divario nell’applicazione della legge, essa si limita a imporre, come discusso infra, un obbligo procedurale nei confronti di un sistema di diritto d’autore intrinsecamente frammentato.

Innanzitutto, l’art. 53 AI Act presenta una lacuna normativa dovuta al suo ambito di applicazione, limitato ai fornitori di modelli di GPAI. Infatti, le operazioni iniziali di TDM (in particolare il web scraping e la compilazione di grandi set di dati di addestramento) sono spesso svolte a monte da soggetti terzi, quali Common Crawl o il già citato LAION. Poiché questi soggetti si limitano spesso a fornire semplicemente datasets, non immettendo sul mercato modelli GPAI, non rientrano nell’ambito di applicazione dell’art. 53 AI Act. Di conseguenza, i fornitori di GPAI hanno l’obbligo giuridico di rispettare l'opt-out relativo al TDM per dati che non hanno estratto direttamente. Come evidenziato da Quintais, non è quindi chiaro in che modo i fornitori di modelli possano garantire le scelte di riserva per i datasets di terzi.

Imponendo obblighi di conformità esclusivamente ai fornitori di modelli a valle, l’AI Act non tiene conto dei soggetti a monte, che effettuano l’estrazione iniziale dei dati. Pertanto, sembra che i fornitori di GPAI non riescano a garantire il rispetto delle riserve d’uso – leggibili da macchina – per i set di dati sottostanti che non hanno acquisito o strutturato essi stessi. questa contraddizione appare quasi scindere le politiche in materia di copyright dall’atto effettivo di estrarre testi e dati.

III. Gli obblighi di trasparenza di cui all'articolo 53(1)(d) AI Act

Come già menzionato, al fine di agevolare il regime di opt-out previsto dal CDSM, l’art. 53(1)(d) AI Act impone ai fornitori di modelli GPAI di redigere e rendere pubblicamente disponibile una «sintesi sufficientemente dettagliata» dei contenuti utilizzati per addestrare i propri modelli, strutturata secondo un modello ufficiale fornito dall’ufficio europeo per l’IA. In teoria, questo obbligo giuridico è concepito per colmare il divario di applicazione, fornendo ai titolari dei diritti la base probatoria necessaria per verificare se le loro opere protette siano state utilizzate (o siano suscettibili di utilizzo) per l'addestramento di GenAI. Tuttavia, l'effettiva efficacia di tale obbligo di trasparenza dipende interamente dal livello di dettaglio richiesto per la divulgazione.

L'efficacia di questo obbligo di trasparenza è compromessa dalla tensione normativa codificata nel considerando 107 dell'AI Act. Esso richiede esplicitamente che qualsiasi divulgazione richiesta tenga «debitamente conto della necessità di proteggere i segreti commerciali e le informazioni commerciali riservate». Il considerando 107 raccomanda quindi che le sintesi dei dati di addestramento siano generali piuttosto che tecnicamente dettagliate. Il rischio che ne deriva è che gli sviluppatori di IA possano quindi omettere deliberatamente la conservazione di registrazioni accurate e dettagliate dei set di dati, a scapito dei singoli creatori che ne hanno, indubbiamente, bisogno per verificare eventuali violazioni del diritto d'autore nei loro confronti.

Nella nota esplicativa finale e nel modello pubblicati dalla Commissione, anziché una divulgazione dettagliata e specifica delle singole opere, vengono richieste descrizioni narrative e un elenco del 10% dei nomi di dominio più utilizzati, in base al volume dei dati raccolti, mentre per i soggetti di minori dimensioni (come le PMI e le startup) tale percentuale si riduce al 5% o a 1.000 domini. Per qualsiasi contenuto ospitato su domini che non rientrano in questa percentuale, la Commissione europea si limita a raccomandare ai fornitori di IA di «agire in buona fede e su base volontaria» per fornire informazioni su richiesta. Dando priorità alla riservatezza aziendale rispetto all’accuratezza delle prove, il quadro normativo priva di fatto i singoli creatori dei loro diritti. Un piccolo creatore la cui opera protetta sia ospitata al di fuori di questi domini di primo livello o non benefici della divulgazione volontaria, rischia di non ricevere alcuna prova utilizzabile per verificare se il proprio contenuto sia stato utilizzato.

Al di là dei suddetti limiti strutturali, le prime valutazioni empiriche evidenziano già diverse problematiche nell’attuazione pratica. Blankvoort, Pandit e Gahntz sottolineano una profonda mancanza di meccanismi consolidati per la pubblicazione o la reperibilità di tali sintesi. Da una valutazione qualitativa inziale, si evince che i fornitori spesso presentano documenti lacunosi, con sezioni mancanti, oscuramenti intenzionali e affermazioni soggettive e irrilevanti, anziché dati concreti. Di conseguenza, allo stato attuale, l’obbligo di trasparenza fallisce sia nella sua concezione normativa che nella sua attuazione pratica.

IV. Gli interventi legislativi proposti

Per affrontare le questioni finora discusse, vengono di seguito illustrate due soluzioni proposte dagli studiosi:

In primo luogo, nel breve termine, il legislatore europeo deve porre rimedio alla frammentazione dell’art. 4, par. 3, della direttiva CDSM imponendo uno standard tecnico universale e all’avanguardia per l’opt-out leggibile da macchina, in modo che i crawlers siano così obbligati a conformarsi.
In secondo luogo, gli studiosi sostengono in maniera crescente la necessità di sostituire il paradigma dell’opt-out, di fatto inapplicabile, con un’eccezione normativa mirata per l’addestramento dell’IA generativa, assieme al diritto, inderogabile, ad una remunerazione equa. Gestito da organismi di gestione collettiva (Collective Management Organisations), questo modello garantirebbe ai creatori un flusso di entrate continuo e proporzionato, sollevando al contempo gli sviluppatori di IA dall’onere di dover stipulare singole licenze.

In alternativa si potrebbe imporre un'imposta sull’IA, orientata agli outputs, nei confronti dei fornitori i cui modelli generano opere letterarie e artistiche sostitutive. Questo obbligo di remunerazione forfettaria controbilancierebbe direttamente lo spostamento del mercato e finanzierebbe iniziative culturali senza appesantire il processo di estrazione dei dati a monte. Passando da un illusorio veto tecnico a solidi sistemi di compensazione gestiti collettivamente, l’UE può conciliare efficacemente l’innovazione nel campo dell'IA con la tutela costituzionale della proprietà intellettuale.

Conclusione

In conclusione, la trasparenza procedurale prevista dall'AI Act non riesce a porre rimedio alle carenze strutturali della direttiva CDSM. Sebbene l'art. 53 sia stato concepito per agevolare il meccanismo di opt-out della direttiva CDSM, esso funziona come un mero requisito di trasparenza fondato su basi instabili. Dando per legge priorità alla riservatezza aziendale rispetto alla divulgazione dettagliata e lasciando senza regolamentazione i data scraper a monte, la legge priva i singoli creatori degli strumenti probatori necessari per far valere le loro ragioni. Anziché rafforzare il potere dei titolari dei diritti, questo compromesso normativo sostiene una dinamica di mercato squilibrata. Una soluzione praticabile richiede il passaggio a nuovi sistemi di compensazione che svincolino la remunerazione dalle difficoltà pratiche associate all'esercizio del diritto di riserva.

Bibliografia

Blankvoort D.A.H. – Pandit H.J. – Gahntz M., Quality Assessment of Public Summary of Training Content for GPAI Models Required by AI Act Article 53(1)(d), arXiv, 2026, https://doi.org/10.48550/arXiv.2603.13270
Buick A., Copyright and AI Training Data—Transparency to the Rescue?, in Journal of Intellectual Property Law and Practice, 2025.
Clements E. – Halstead E. – Cohen R., AI, Copyright and the Creative Industries, House of Lords Communications and Digital Committee, https://publications.parliament.uk/pa/ld5901/ldselect/ldcomm/267/267.pdf.
European Commission, Explanatory Notice and Template for the Public Summary of Training Content for General-Purpose AI Models Required by Article 53(1)(d) of Regulation (EU) 2024/1689 (AI Act), 2025.
Lucchi N., Generative AI and Copyright - Training, Creation, Regulation, European Parliament – Policy Department for Justice, Civil Liberties and Institutional Affairs, 2025, https://www.europarl.europa.eu/RegData/etudes/STUD/2025/774095/IUST_STU(2025)774095_EN.pdf.
Quintais J.P., Generative AI, Copyright and the AI Act, in Computer Law & Security Review, 2025.
Senftleben M., Generative AI and Author Remuneration, in IIC, 2023.

DOVE IL DIRITTO
INCONTRA LA TECNOLOGIA