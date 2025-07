Milioni di libri scaricati illegalmente da siti pirata per addestrare la sua intelligenza artificiale: è l’accusa di tre scrittori statunitensi ad Anthropic, start-up miliardaria finanziata da Google e da Amazon. Ed ora che il giudice ha autorizzato una class action, milioni di autori potrebbero unirsi alla causa legale. È il mondo della cultura che si solleva contro Big Tech, in difesa del copyright e dei diritti d’autore.

Anthropic è il fiore all’occhiello dell’industria tecnologica americana: la start-up, lanciata sul mercato da ex dipendenti di Open AI, ha subito attirato l’attenzione di investitori “pesanti” come Amazon e Google. In una manciata di anni ha raccolto miliardi e ora, con il chatbot che ha sviluppato e commercializzato (“Claude”), compete a pieno titolo con l’azienda leader del settore (che gestisce Chat GPT). Ma l’intelligenza artificiale deve essere addestrata. E il processo richiede anzitutto un’immensa mole di dati, da dare in pasto all’algoritmo. Il tema, economico ma anche morale, è dove e da chi prenderli.

Ad agosto del 2023 gli scrittori Andrea Bartz, Charles Graeber e Kirk Wallace Johnson hanno denunciato Anthropic: per addestrare il suo chatbot, l’azienda avrebbe utilizzato le loro opere senza acquistarle regolarmente né richiedere licenze, in violazione dei diritti d’autore. Di norma quando un’opera è coperta dal copyright, per poterla riprodurre non basta acquistare il prodotto: l’acquisto crea le condizioni per poterne usufruire privatamente, come consumatore, e non con finalità commerciali. Bisogna anche acquisirne i diritti (ovviamente, dietro pagamento).

Il giudice federale che si è occupato del caso, tuttavia, ha stabilito che l’impiego di libri comprati per istruire un modello di linguaggio avanzato rientra nel “fair use” (uso corretto): si tratta, infatti, di un “uso trasformativo”, perché il libro non viene riprodotto (per intero) o distribuito, ma rielaborato integralmente, trasformando il testo in dati matematici. Bisogna comunque tener conto del fatto che il diritto in materia è in piena evoluzione: il quadro normativo, su pressione di cause come questa, è (e sarà) soggetto a continue revisioni.

Ma non è tutto. Anthropic ha acquistato regolarmente migliaia di libri, come ha annotato il giudice. Ma una parte cospicua del materiale adoperato per l’allenamento dell’algoritmo sarebbe stata scaricata, stando agli atti depositati in tribunale, da archivi pirata come Library Genesis o PiLiMi. Per un totale stimato di ben sette milioni di titoli. Il download di testi da siti illegali, ovviamente, costituisce reato a prescindere dall’uso (trasformativo o meno) che se ne fa. Il tribunale ha dunque stabilito che il caso, intentato da tre scrittori, può evolvere in una class action nazionale che coinvolgerà, potenzialmente, tutti gli autori statunitensi lesi da Anthropic.

C’è anche un precedente: a giugno del 2025 anche Reddit ha intentato una causa contro Anthropic. Si tratta di una piattaforma social e forum online basata su discussioni tematiche, organizzate in comunità chiamate “subreddit”: una vera e propria miniera di dati testuali. Nonostante Reddit avesse bloccato formalmente l’accesso all’azienda, il suo chatbot Claude avrebbe continuato ad attingere impunemente (per più di 100.000 volte, in base all’accusa) ai contenuti generati dalle comunità e dagli utenti della piattaforma.

Queste controversie vanno lette alla luce di una tendenza generale sottesa a questa rivoluzione industriale. A dicembre del 2023 il New York Times ha denunciato Open AI per aver impiegato, nel processo d’addestramento di Chat GPT, milioni di articoli prodotti dalla testata. Chiaramente, senza un’autorizzazione formale o la previsione di compensi economici per il giornale. In parallelo il NYT ha siglato una partnership con Amazon, mettendo a disposizione della multinazionale e della sua IA il proprio archivio.

I conglomerati coinvolti in questa corsa allo sviluppo dell’AI promettono benefici significativi a consumatori e lavoratori (meno che quelli, sia chiaro, che verranno sostituiti dagli algoritmi). Però i loro modelli di linguaggio avanzato hanno bisogno di dati. E si dovrebbe pagare chi li genera, riconoscendone il contributo. I Parlamenti di tutto il mondo sono tenuti a legiferare in materia, per bilanciare le necessità poste dallo sviluppo tecnologico e la tutela dei diritti d’autore. E se il legislatore non risponde a quest’esigenza, ormai improrogabile, toccherà ai giudici pronunciarsi. Come è accaduto in questi giorni al di là dell’Atlantico.