NYT: La parola ad Open AI

La nota premessa

OpenAI è attualmente coinvolta in una disputa legale con The New York Times (NYT) per presunte violazioni del copyright.

https://www.documentcloud.org/documents/24238498-nyt_complaint_dec2023

In un contesto in cui l’intelligenza artificiale sta ridefinendo i limiti dell’innovazione e della creatività, la recente causa del New York Times contro OpenAI e Microsoft segna un punto di svolta potenzialmente cruciale per il futuro del copyright nell’era digitale.

Il 27 dicembre 2023, il prestigioso giornale ha lanciato un’azione legale accusando OpenAI di aver utilizzato illegalmente milioni dei suoi articoli per addestrare le proprie tecnologie AI, tra cui il noto chatbot ChatGPT .

La denuncia del NYT non solo mette in discussione l’uso di contenuti protetti per l’addestramento di algoritmi AI ma solleva anche questioni più ampie sul valore e sulla protezione del giornalismo indipendente.

Secondo il NYT, OpenAI avrebbe dato “particolare enfasi ai contenuti del Times” nella formazione dei suoi strumenti di intelligenza artificiale generativa, una mossa che, se confermata, potrebbe avere implicazioni significative per i diritti d’autore in ambito digitale.

Il caso del NYT segue la scia di cause simili, come quella intentata da Getty Images contro Stability AI all’inizio del 2023, dove Getty ha sostenuto che Stability AI aveva elaborato milioni di immagini protette da copyright utilizzando uno strumento chiamato Stable Diffusion, che genera immagini da istruzioni di testo utilizzando l’intelligenza artificiale.

Questo caso potrebbe essere risolto in via extragiudiziale o potrebbe procedere fino a una sentenza che stabilirebbe un precedente significativo. Inoltre, il processo solleva interrogativi sull’adeguatezza delle leggi attuali sul copyright nell’affrontare le sfide poste dall’intelligenza artificiale.

In una presentazione alla Camera dei Lord del Regno Unito il 5 dicembre 2023, OpenAI ha dichiarato che sarebbe impossibile addestrare i principali modelli AI moderni senza l’utilizzo di materiali protetti da copyright.

Alcune opinioni

Bryan Sterba, partner di Lowenstein Sandler e membro del Lowenstein AI practice group

Sterba rileva che OpenAI propugna un’interpretazione ampia della difesa del “fair use”, una posizione non del tutto supportata dalle leggi esistenti ma ritenuta necessaria per il progresso dell’IA generativa.

Secondo Sterricba si tratterebbe “fondamentalmente di un’argomentazione di politica pubblica” che OpenAI vorrebbe formulare intorno alla difesa dell’uso corretto, già adottata in altri Paesi per evitare di ostacolare il progresso dell’IA.

” Sebbene sia sempre difficile stabilire con certezza come un tribunale deciderà su una determinata questione, il NYT ha dimostrato ampiamente di possedere gli elementi di base di una richiesta di risarcimento per violazione”.

Kohel ha inoltre precisato che la posta in gioco in questa causa giudiziaria sia “indubbiamente” molto alta.

“Il NYT reclama miliardi di dollari di danni”, ha dichiarato, aggiungendo che “sostiene che OpenAI stia fornendo i suoi preziosi contenuti – a cui non si può accedere senza un abbonamento a pagamento – gratuitamente”.

Egli ritiene che una sentenza a favore di OpenAI, che non ha commesso alcuna violazione, significherebbe che essa e altri provider di tecnologie AI possono utilizzare e riprodurre liberamente uno dei “beni più preziosi” del NYT: i suoi contenuti.

Kohel ha sottolineato che, al momento, non esiste un quadro giuridico che disciplini specificamente l’uso dei dati di addestramento per un modello di IA.

Di conseguenza, i creator di contenuti come il NYT e gli autori come Sarah Silverman hanno intentato causa basandosi sul Copyright Act per proteggere i loro diritti di proprietà intellettuale.

La situazione potrebbe però evolversi: a dicembre 2023 i legislatori statunitensi hanno introdotto l’AI Foundation Model Transparency Act a nome del Congressional Artificial Intelligence Caucus bipartisan.

Secondo Kohel, se la legge venisse approvata, implicherebbe l’uso e la trasparenza dei dati utilizzati per l’apprendimento.
In sua difesa, OpenAI ha dichiarato che, fornendo agli editori la possibilità di scegliere di non essere utilizzati per la raccolta dei dati, agisce “nel modo corretto”.

Sterba ha commentato la decisione sostenendo che:

“Il concetto di opt-out sarà una magra consolazione per il NYT e gli altri editori, in quanto non dispongono di alcuna informazione su quali porzioni del loro materiale pubblicato protetto da copyright siano già state sottoposte a scraping da parte di OpenAI”.

L’evoluzione della causa porta alla ribalta il panorama legale in evoluzione che circonda l’IA sia per gli sviluppatori che per i creator. Kohel ha sottolineato l’importanza della consapevolezza per entrambe le parti:

“Gli sviluppatori di IA dovrebbero comprendere che il Congresso e la Casa Bianca – come dimostra l’ordine esecutivo emesso dal Presidente Biden ad ottobre 2023 – stanno esaminando con attenzione le varie implicazioni che i modelli di IA esercitano sulla società”.
Ciò andrebbe oltre i diritti di proprietà intellettuale e si estenderebbe alle questioni di sicurezza nazionale.

“I creator di contenuti dovrebbero proteggere i loro interessi registrando le loro opere presso l’Ufficio del copyright, in quanto gli sviluppatori di IA potrebbero ritrovarsi a dover pagare loro una fee di licenza se utilizzano le loro opere per addestrare i loro LLM [grandi modelli linguistici]”.

La difesa di OpenAI

OpenAI ha risposto alle accuse con un post sul proprio blog l’8 gennaio 2024, dichiarando che la causa è “priva di merito” e sottolineando il proprio sostegno al giornalismo e le partnership con le testate giornalistiche.

In un acceso scambio di opinioni che si sta svolgendo sul palcoscenico digitale, OpenAI ha risposto alle accuse mosse dal “New York Times” riguardo l’utilizzo dei suoi articoli da parte dell’intelligenza artificiale ChatGPT.

In un post pubblicato sul proprio blog, OpenAI ha contestato le affermazioni del quotidiano, sostenendo che la realtà è stata distorta e che i fatti non sono stati riportati integralmente.

Secondo il “Times”, ChatGPT avrebbe riprodotto testualmente i contenuti del giornale, ma OpenAI ribatte che il “Times” potrebbe aver manipolato le richieste al modello per ottenere risultati che includessero estratti esatti degli articoli.

OpenAI sostiene che, anche quando vengono fornite indicazioni specifiche, i suoi modelli di intelligenza artificiale di solito non riproducono contenuti in modo così diretto come insinuato dal “New York Times”.

OpenAI ha espresso la propria posizione affermando: “Anche quando si utilizzano tali suggerimenti, i nostri modelli in genere non si comportano come insinua il New York Times, il che suggerisce che abbiano istruito il modello a rigurgitare o abbiano selezionato i loro esempi da molti tentativi”. Questa dichiarazione mette in luce la complessità nell’interazione tra AI e contenuti protetti da copyright, e solleva questioni sulla trasparenza e sull’etica nell’addestramento dei modelli di intelligenza artificiale.

La disputa solleva questioni fondamentali sull’evoluzione del diritto d’autore nell’era dell’intelligenza artificiale e sulla responsabilità delle aziende tecnologiche nel garantire che i loro prodotti non violino i diritti di proprietà intellettuale.

Il dibattito è lontano dall’essere risolto e promette di alimentare una discussione più ampia sulla coesistenza tra innovazione tecnologica e tutela dei diritti d’autore.

Tuttavia, non ha raggiunto un accordo con il NYT prima della denuncia.

Il contenuto:

https://openai.com/blog/openai-and-journalism

Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano alle persone di risolvere problemi altrimenti irraggiungibili. Le persone in tutto il mondo stanno già utilizzando la nostra tecnologia per migliorare la loro vita quotidiana . Milioni di sviluppatori e oltre il 92% delle aziende Fortune 500 si affidano oggi ai nostri prodotti.

Anche se non siamo d’accordo con le affermazioni nella causa del New York Times, la consideriamo un’opportunità per chiarire la nostra attività, le nostre intenzioni e il modo in cui costruiamo la nostra tecnologia. La nostra posizione può essere riassunta in questi quattro punti, che riportiamo di seguito:

1. Collaboriamo con testate giornalistiche e stiamo creando nuove opportunità

Lavoriamo duramente nel nostro processo di progettazione tecnologica per supportare le testate giornalistiche. Abbiamo incontrato decine di persone, nonché organizzazioni leader del settore come la News/Media Alliance, per esplorare opportunità, discutere le loro preoccupazioni e fornire soluzioni. Il nostro obiettivo è imparare, educare, ascoltare feedback e adattarci.

I nostri obiettivi sono supportare un ecosistema di notizie sano, essere un buon partner e creare opportunità reciprocamente vantaggiose.

Le nostre prime partnership con Associated Press , Axel Springer , American Journalism Project e NYU offrono uno sguardo al nostro approccio.

2. La formazione rientra nel fair use, ma forniamo una possibilità di rinuncia perché è la cosa giusta da fare

Addestrare modelli di intelligenza artificiale utilizzando materiali Internet disponibili al pubblico è un uso corretto, come supportato da precedenti di lunga data e ampiamente accettati. Consideriamo questo principio giusto per i creatori, necessario per gli innovatori e fondamentale per la competitività degli Stati Uniti.

Il principio secondo cui l’addestramento dei modelli di intelligenza artificiale è consentito come fair use è sostenuto da un’ampia gamma di accademici , associazioni di biblioteche , gruppi della società civile , startup , aziende leader statunitensi , creatori , autori e altri che hanno recentemente presentato commenti al Copyright Office degli Stati Uniti. Anche altre regioni e paesi, tra cui Unione Europea , Giappone , Singapore e Israele , hanno leggi che consentono modelli di formazione su contenuti protetti da copyright, un vantaggio per l’innovazione, il progresso e gli investimenti dell’IA.

Detto questo, per noi il diritto legale è meno importante dell’essere buoni cittadini. Abbiamo guidato il settore dell’intelligenza artificiale fornendo agli editori un semplice processo di opt-out (adottato dal New York Times nell’agosto 2023) per impedire ai nostri strumenti di accedere ai loro siti.

Che cosa è il Fair Use

La dottrina del “fair use” è un concetto giuridico che permette la riutilizzazione di materiale protetto da copyright sotto determinate circostanze senza dover ottenere il permesso del proprietario del copyright. Google, attraverso le sue varie piattaforme di supporto, fornisce informazioni su come questa dottrina si applica, sottolineando che non può fornire consulenza legale o determinazioni legali, ma può offrire delle linee guida generali.

Tale uso è permesso quando il materiale viene impiegato per scopi quali critica, commento, reportage, insegnamento (compresi scopi didattici multipli), borse di studio o ricerca.

Le eccezioni italiane più rilevanti che possono essere paragonate al “Fair Use” includono:

Citazione per scopi di critica o discussione.
Uso per scopi didattici o scientifici.
Uso in procedimenti giudiziari o amministrativi.

Il “Fair Use” non è una legge universale ma piuttosto una difesa legale che può essere invocata in caso di controversia.

Ad esempio, l’utilizzo di brevi citazioni in una recensione critica è generalmente considerato un uso equo, mentre la copia e la distribuzione di interi capitoli di un libro senza permesso non lo sono.

Secondo Google, i quattro fattori principali da considerare per determinare se un uso rientra nella categoria del “fair use” sono:

Lo scopo e il carattere dell’uso, inclusa la valutazione se l’uso ha natura commerciale o è per scopi educativi o senza scopo di lucro.
La natura del materiale protetto da copyright.
La quantità e la sostanzialità della parte utilizzata rispetto all’intero materiale protetto.
L’effetto dell’uso del materiale sul potenziale mercato o sul valore del materiale protetto da copyright.

Un elemento fondamentale per l’applicazione è che l’uso dell’opera deve essere conforme alla buona fede e deve essere utilizzato nella misura giustificata dagli scopi non commerciali perseguiti, come l’educazione o la ricerca. Inoltre, è necessario che venga sempre indicata la fonte e, se possibile, il nome dell’autore se ciò appare sull’opera utilizzata

Questi fattori sono parte di un’analisi complessiva che deve essere fatta caso per caso.

Sulle piattaforme come YouTube, che è di proprietà di Google, il “fair use” è una questione comune data la natura della creazione e condivisione di contenuti sul sito.

Gli utenti sono incoraggiati a comprendere i principi del “fair use” quando caricano contenuti che includono materiale protetto da copyright.

YouTube riceve molte richieste relative a presunte violazioni del copyright e utilizza i fattori del “fair use” per valutare queste richieste[4].

Una esigenza riformatrice? Legge sul copyright UE/USA e implicazioni sui dati di formazione ML

fonte: https://valohai.com/blog/copyright-laws-and-machine-learning/

Il blog di Valohai affronta la questione dell’acquisizione di dati per progetti di Machine Learning (ML) alla luce delle leggi sul copyright dell’UE e degli USA. La problematica principale è che i dati generati dagli esseri umani o su di essi hanno normalmente delle restrizioni riguardo al modo in cui possono essere utilizzati.

Una delle questioni chiave discusse nel blog è che, mentre il testo e i dati numerici possono non essere protetti da copyright in quanto tali, la loro raccolta e organizzazione in un database possono essere soggette a protezione. Questo pone delle sfide significative per i progetti di ML, che spesso richiedono grandi quantità di dati per addestrare efficacemente gli algoritmi.

Inoltre, il blog esplora come il diritto d’autore si applica ai modelli di ML addestrati con dati protetti.

Sebbene il modello in sé possa non essere una copia diretta del materiale sorgente, le leggi attuali non sono chiare su come la derivazione di dati attraverso l’addestramento del modello si relazioni con i diritti di copyright.

Valohai suggerisce che le imprese e gli sviluppatori devono essere consapevoli delle implicazioni legali quando raccolgono e utilizzano dati per l’addestramento di ML.

Essi dovrebbero cercare di ottenere dati attraverso mezzi legali, come l’uso di set di dati pubblici o l’ottenimento di licenze per utilizzare dati protetti da copyright.

La discussione si estende anche alla necessità di aggiornare le leggi sul copyright per meglio riflettere le realtà del ML e dell’intelligenza artificiale (IA). Attualmente, molte delle leggi esistenti non prendono in considerazione le sfide poste dalle nuove tecnologie, lasciando un’area grigia di incertezza legale.

In sintesi, il blog di Valohai evidenzia l’importanza della consapevolezza legale nell’ambito del ML e la necessità di un dialogo continuo tra sviluppatori, legislatori e detentori dei diritti per navigare il complesso panorama del diritto d’autore nell’era dell’IA[1].

3. Il “rigurgito” è un bug raro che stiamo lavorando per ridurre a zero

I nostri modelli sono stati progettati e addestrati per apprendere concetti al fine di applicarli a nuovi problemi .

La memorizzazione è un raro fallimento del processo di apprendimento su cui facciamo continuamente progressi, ma è più comune quando un particolare contenuto appare più di una volta nei dati di addestramento, come se parti di esso appaiano su molti siti Web pubblici diversi.

Quindi abbiamo adottato misure per limitare la memorizzazione involontaria e prevenire il rigurgito negli output del modello. Ci aspettiamo inoltre che i nostri utenti agiscano in modo responsabile; manipolare intenzionalmente i nostri modelli per rigurgitarli non è un uso appropriato della nostra tecnologia ed è contrario ai nostri termini di utilizzo.

Proprio come gli esseri umani ottengono un’ampia formazione per imparare a risolvere nuovi problemi, vogliamo che i nostri modelli di intelligenza artificiale osservino la gamma di informazioni a livello mondiale, comprese quelle provenienti da ogni lingua, cultura e settore.

Poiché i modelli apprendono dall’enorme aggregato della conoscenza umana, qualsiasi settore, comprese le notizie, rappresenta una piccola fetta dei dati complessivi di formazione, e ogni singola fonte di dati, compreso il New York Times, non è significativa per l’apprendimento previsto dal modello.

che cosa è il rigurgito?

Il termine “rigurgito” in riferimento a ChatGPT descrive un fenomeno in cui il modello di intelligenza artificiale riproduce parti di testo da opere protette da copyright in modo meccanico e parola per parola, simile a un pappagallo.

Questo comportamento è considerato un bug, e OpenAI ha affermato di lavorare per ridurre a zero l’incidenza di tali eventi.

Il “rigurgito” è stato descritto come un caso di “memorizzazione involontaria”, che la società cerca di evitare, e si verifica più comunemente quando un particolare contenuto appare ripetutamente nei dati di addestramento, come quando parti di esso sono presenti su molti siti web pubblici.

OpenAI ha preso misure per limitare questa memorizzazione involontaria e prevenire il rigurgito

Quando è avvenuta la violazione di chatpt?

La violazione è avvenuta durante una finestra di nove ore il 20 marzo, tra l’1 e le 10, ora del Pacifico. Secondo OpenAI , i creatori di ChatGPT, circa l’1,2% degli abbonati ChatGPT Plus attivi durante questo periodo di tempo hanno visto i propri dati esposti.

Quali dati sono stati esposti durante la violazione?

Durante questo periodo, alcuni utenti potevano vedere il nome e cognome, l’indirizzo e-mail, l’indirizzo di pagamento, il tipo di carta di credito, il numero di carta di credito (solo le ultime quattro cifre) e la data di scadenza della carta di credito di un altro utente. Era anche possibile per alcuni utenti vedere il primo messaggio delle conversazioni appena create da altri utenti.

Come è avvenuta la violazione dei dati di ChatGPT?

La violazione è avvenuta a causa di un bug nel codice open source che ChatGPT utilizzava dietro le quinte.

Ciò creava un errore per cui se annullavi una richiesta entro un periodo di tempo molto specifico, il sistema si confondeva e decideva di fornire le tue informazioni all’utente successivo che aveva effettuato una richiesta simile perché non sapeva cosa farne.

Qual è stata la risposta all’incidente?

I manutentori open source di Redis hanno risolto il bug e implementato una patch. OpenAI non ha intenzione di abbandonare Redis, che a suo dire è stato “cruciale” per far sì che ChatGPT diventasse realtà.

L’incidente ha sollevato dubbi sulla sicurezza di ChatGPT

Da allora, l’autorità italiana di vigilanza sulla privacy ha bandito ChatGPT , citando esplicitamente la violazione dei dati come uno dei motivi, oltre a mettere in dubbio l’uso dei dati personali da parte di OpenAI per addestrare il chatbot.

Ha citato preoccupazioni come la “mancanza di avviso agli utenti e a tutti coloro coinvolti i cui dati sono raccolti da OpenAI” e ha affermato che non sembra esserci “alcuna base legale alla base della raccolta e del trattamento massicci di dati personali al fine di ‘addestrare’ il personale algoritmi su cui si basa la piattaforma”.

L’Autorità ha inoltre criticato il fatto che, pur essendo il servizio rivolto a persone di età superiore ai 13 anni, “l’assenza di qualsiasi filtro di verifica dell’età degli utenti espone i minori a risposte assolutamente inadeguate rispetto al loro grado di sviluppo e di autoconsapevolezza”. .”

4. Il New York Times non racconta tutta la storia

Secondo OpenAI, il “Times” non ha accettato di fornire esempi specifici di tale comportamento prima di procedere con un’azione legale. La società afferma che gli esempi di riproduzione letterale citati dal quotidiano “sembrano provenire da articoli vecchi di anni che sono proliferati su più siti Web di terze parti”, suggerendo quindi che il problema potrebbe non essere così diffuso come presentato.

Le nostre discussioni con il New York Times sembravano procedere in modo costruttivo attraverso la nostra ultima comunicazione del 19 dicembre.

Le trattative si sono concentrate su una partnership di alto valore sulla visualizzazione in tempo reale con attribuzione in ChatGPT, in cui il New York Times avrebbe guadagnato un nuovo modo per connettersi con i loro lettori esistenti e nuovi e i nostri utenti avrebbero accesso ai loro rapporti. Avevamo spiegato al New York Times che, come ogni singola fonte, i loro contenuti non contribuivano in modo significativo alla formazione dei nostri modelli esistenti e inoltre non avrebbero avuto un impatto sufficiente per la formazione futura. La loro causa del 27 dicembre, di cui siamo venuti a conoscenza leggendo il New York Times, è stata per noi una sorpresa e una delusione.

Lungo il percorso, avevano menzionato di aver visto qualche rigurgito dei loro contenuti, ma si erano ripetutamente rifiutati di condividere qualsiasi esempio, nonostante il nostro impegno a indagare e risolvere eventuali problemi.

Abbiamo dimostrato con quanta serietà consideriamo questo aspetto una priorità, come ad esempio a luglio quando abbiamo rimosso una funzionalità ChatGPT subito dopo aver appreso che poteva riprodurre contenuti in tempo reale in modi non desiderati.

È interessante notare che i rigurgiti indotti dal New York Times sembrano provenire da articoli vecchi di anni che sono proliferati su numerosi siti Web di terze parti . Sembra che abbiano intenzionalmente manipolato i suggerimenti, spesso includendo lunghi estratti di articoli, al fine di far rigurgitare il nostro modello.

Anche quando si utilizzano tali suggerimenti, i nostri modelli in genere non si comportano come insinua il New York Times, il che suggerisce che abbiano istruito il modello a rigurgitare o abbiano scelto i loro esempi da molti tentativi.

Nonostante le loro affermazioni, questo uso improprio non è un’attività tipica o consentita dell’utente e non sostituisce il New York Times.

Indipendentemente da ciò, rendiamo continuamente i nostri sistemi più resistenti agli attacchi avversari volti a rigurgitare i dati di addestramento e abbiamo già fatto molti progressi nei nostri modelli recenti.

Riteniamo che la causa del New York Times sia priva di merito.

Tuttavia, speriamo in una partnership costruttiva con il New York Times e rispettiamo la sua lunga storia, che include la segnalazione della prima rete neurale funzionante oltre 60 anni fa e la difesa delle libertà del Primo Emendamento.

Ci auguriamo di poter continuare la collaborazione con le testate giornalistiche, contribuendo a elevare la loro capacità di produrre giornalismo di qualità realizzando il potenziale di trasformazione dell’intelligenza artificiale.

L’Imperativo di OpenAI per l’Accesso alla Conoscenza Globale”

OpenAI ha ribadito il suo impegno verso l’innovazione nell’intelligenza artificiale, sottolineando l’importanza dell’accesso alla vasta riserva di conoscenza umana per l’apprendimento e il miglioramento dei modelli AI. L’azienda sostiene che per poter apprendere e risolvere problemi inediti, i suoi modelli necessitano di interagire con un ampio spettro di dati.

In risposta alle preoccupazioni sollevate dagli editori, OpenAI ha annunciato che dal mese di agosto 2023 i proprietari dei siti web avranno la possibilità di bloccare i crawler web dell’azienda, impedendo così l’accesso ai loro dati. Questa mossa arriva quasi un anno dopo il lancio di ChatGPT e sembra essere un tentativo di equilibrare l’innovazione tecnologica con il rispetto dei diritti d’autore.

OpenAI ha portato avanti il proprio argomento a favore dell’accesso ai contenuti protetti da copyright durante una recente presentazione alla Camera dei Lord del Regno Unito, sottolineando la necessità imprescindibile di tale accesso per lo sviluppo di sistemi di intelligenza artificiale avanzati come ChatGPT.

L’azienda ha sostenuto che senza la possibilità di interagire con un ampio spettro di dati, compresi quelli protetti da diritti d’autore, sarebbe impossibile creare un’intelligenza artificiale che possa riflettere adeguatamente la diversità e la complessità dell’intelligenza e dell’esperienza umana.

Questa posizione è stata espressa in un contesto in cui il dibattito sull’equilibrio tra innovazione tecnologica e protezione dei diritti di proprietà intellettuale sta diventando sempre più acceso.

OpenAI ha evidenziato che l’integrazione di opere protette da copyright nei loro modelli AI non solo è essenziale per il loro apprendimento e sviluppo, ma è anche fondamentale per garantire che l’intelligenza artificiale possa servire efficacemente una società diversificata e multifacetata.

Che cosa è Common Crawl?

Common Crawl è un’organizzazione no-profit fondata nel 2007 che mantiene un repository gratuito e aperto di dati di web crawl, accessibile a chiunque.

Questi dati possono essere utilizzati per l’estrazione all’ingrosso, la trasformazione e l’analisi dei dati web aperti.

Il repository di Common Crawl contiene oltre 250 miliardi di pagine che coprono un periodo di 15 anni, con 3-5 miliardi di nuove pagine aggiunte ogni mese. I dati di Common Crawl sono stati citati in oltre 10.000 articoli di ricerca