Articoli e inchieste

Artificial Intelligence: un selvaggio nella biblioteca di Alessandria

Di Gianluca Cerruti e Francesco Giordano


Tempo di lettura: minuti

Come impara un’intelligenza artificiale? In che modo il diritto di autore influenzerà il suo sviluppo? Gianluca Cerruti analizza le sfide dell’IA: apprendimento, diritti d’autore e governance etica

Nature vs nurture

Immaginatevi prigionieri dalla nascita nella biblioteca di Alessandria: una volta cresciuti, il risultato non sarà molto distante dall’intelligenza artificiale. Dalla fine del Settecento si diffuse un grande interesse per casi di persone che – perse o abbandonate alla nascita – venivano poi ritrovate e reinserite nel mondo civile: la diffusione del metodo scientifico agì da stimolo per studi sull’apprendimento, volti a capire, nell’uomo, ciò che è innato rispetto a ciò che viene appreso attraverso l’istruzione – nature vs nurture (compito che, peraltro, si rivelò quasi impossibile).

Uno di questi, Peter the Wild – ritrovato nella foresta della città di Hamelin, divenuta nota per la leggenda del pifferaio magico – suscitò un vivissimo interesse nell’ambiente aristocratico dell’epoca e venne portato al cospetto del re d’Inghilterra Giacomo I, tanto da essere adottato dalla famiglia reale e portato a Londra. Una storia simile – ma ambientata fra la storica regione dell’Alvernia e Parigi – è quella di Victor dell’Aveyron, raccontata nel film “L’enfant sauvage” del celebre regista francese François Truffaut.

Immaginiamo per un momento che tale “selvaggio” sia in grado di leggere, e che abbia a disposizione tutti i piani, le sale, gli scaffali e i volumi contenuti nella leggendaria biblioteca di Alessandria – la più completa, quella che contiene tutto quanto sia mai stato scritto: nulla di più di un misero sostentamento, ma una enorme massa di libri.

Il nostro barbaro, ma vorace lettore avrà un apprendimento molto particolare: privo di esperienza pratica dei temi discussi, senza la mediazione di altri esseri umani, né compagni di scuola, o maestri, amici o detrattori, e senza poterne osservare le reazioni.

Di fatto il meccanismo di apprendimento sarà quindi interamente meccanico: alla domanda “come stai?”, il nostro “selvaggio” ripercorrerà tutti i casi in cui si è imbattuto nella stessa formula, in tutti i testi che ha avuto occasione di consultare. Dotato di prodigiosa memoria, rammenterà che normalmente la risposta è costituita da due alternative: “bene” o “male”. Il campo delle possibili risposte si è già abbastanza ristretto; ma quale scegliere tra le due? Beh, ripercorrendo quanto letto in passato, se nello scambio che ha preceduto la domanda si fa menzione, per dire, di “mal di denti”, “debiti insoluti”, “tradimenti d’amore” o simili, in genere la risposta sarà “male”; se invece, si fa menzione a “sole e amore”, “vincita al lotto”, in genere, si dirà “bene”.

I modelli di apprendimento dell’IA

L’esempio è solo in apparenza faceto. L’intelligenza artificiale generativa (generative AI) è un modello di apprendimento linguistico basato, essenzialmente, sulla ricorrenza statistica. Avendo a disposizione una potenza di calcolo enorme, in grado di analizzare milioni di testi in tempo reale, può ricostruire frasi e concetti, riproducendo con senso compiuto il linguaggio umano, basandosi solo sulle associazioni tra parole. È un processo di apprendimento per ripetizione che – per certi versi – è paragonabile all’acquisizione delle regole grammaticali da parte di un bambino. D’altronde anche noi stessi, nell’imparare a parlare, non ci siamo curati di sapere che il condizionale segue l’ipotetica: senza neppure sapere cosa sono i modi verbali, abbiamo imparato a usarli per assimilazione, avendoli sentiti da altri.

Ad oggi, ci sono dunque due componenti che risultano essenziali ai fini dello sviluppo di sistemi di generative AI. Uno, chiaramente, è l’enorme capacità di calcolo, che permette di analizzare una gigantesca massa di dati in pochi istanti, così da poter riflettere la rapidità di risposta di una conversazione umana. È da qui che si innesca il “motore statistico” sottostante.

Tuttavia ciò non basta: l’IA deve apprendere a parlare, da dove impara? Nel nostro esempio, il “selvaggio” scorazza tra i piani e le sale della biblioteca. Non troppo diversamente, l’AI impara dalla massa di informazioni a cui può accedere in larga prevalenza presente nell’etere. Il sistema, in generale, assorbe dati e informazioni che trova nel vasto oceano di dati presenti nel web, tra i quali social media, librerie digitali, giornali, televisioni, radio e banche dati di varia natura. Ne raccoglie i contenuti, nella maggior parte dei casi, senza chiedere esplicitamente il permesso e senza riconoscerne il contributo. Il problema? In molti casi tali informazioni sono soggette a copyright. Ma, d’altronde, una regola non c’è, e tale componente è cruciale per il funzionamento della generative IA.

Il problema del copyright

Il modello di apprendimento così definito solleva quindi alcuni temi spinosi. Un recente caso in materia è stato discusso in un tribunale in California (riguardo all’uso di immagini per applicazioni word-to-image).

Alcuni autori hanno obiettato che se l’AI utilizza i loro testi o le loro immagini per il proprio apprendimento, andrebbe loro riconosciuto il diritto a partecipare agli utili generati. Gli autori richiedono che il processo di definizione del “language model” sottostante sia reso trasparente e che ad ogni uso corrisponda una commissione pagata agli autori delle opere a cui si è ispirati. Di fatto, un qualcosa che assomiglia al modello SIAE per la retribuzione di autori dei brani musicali, che vanno versati ogni volta che vengono rappresentati in pubblico.

Tuttavia, senza dubbio il tema assume rapidamente un livello di complessità considerevole. Dato che il sistema di apprendimento dell’IA è basato su amplissimi volumi di testi analizzati, è estremamente complesso determinare in modo accurato quale testo ha dato il maggior contributo; come definire con accuratezza se il risultato sarebbe stato peggiore senza quel particolare input? Inoltre, ciò vorrebbe dire che ogni volta che una persona interroga il sistema di IA, si dovrà tener conto di tutta l’enorme quantità di testi che hanno fatto parte del suo “corredo educativo”, magari attraverso stratificazioni di utilizzi precedenti.

Per il momento, il tribunale della California – finora l’unico, almeno per quanto ci risulta, ad aver preso una decisione su questo argomento – ha declinato le richieste di compensazione degli autori.

Sintetizzando al massimo, il giudice ha dato ragione alle società di IA che argomentavano che i sistemi ne fanno in effetti un uso ricorrente, ma che rientra nella definizione legale di un uso “giusto”: non vi è una riproduzione esatta, l’utilizzo è per uno scopo corretto e non si pone in diretta competizione commerciale con il testo o l’immagine utilizzata.

C’è inoltre un tema relativo al consumo di un testo già acquisito: posso leggere un libro che ho comprato quante volte desidero, senza che qualcuno misuri le volte che lo ho sollevato dal comodino, inviandomi poi una fattura per ciascun uso. Vi sono altre cause legali in corso e vedremo se ci saranno sviluppi o interpretazioni diverse.

New York Times contro Open AI

La causa più interessante da monitorare – che rappresenterà di certo un punto di svolta per tutto il mondo della generative AI – è quella intentata dal New York Times, nei confronti di Open AI e Microsoft per “uso non autorizzato di opere pubblicate per l’addestramento dell’intelligenza artificiale”.

In breve, è noto come spesso capiti che le risposte della generative AI siano una copia o semplici parafrasi di articoli del quotidiano newyorkese (e, chiaramente, di molti altri media), e pertanto il NYT vuole essere pagato e la richiesta che avanza è quella di “distruggere ogni modello di chatbot che ha usato il materiale del quotidiano”.

Inoltre, la generative AI ha anche un altro problema, quello delle cosiddette “allucinazioni”: infatti se da un lato, come già accennato, spesso e volentieri non cita la fonte delle proprie risposte, viceversa altre volte attribuisce erroneamente informazioni terze – plausibili ma false, o comunque non verificate – a giornali, quotidiani e media che incappano così in un danno reputazionale.

La sede del New York Times, 620 Eighth Avenue

Il dilemma delle fonti

Insomma, è chiaro che le ripercussioni della decisione saranno epocali e che il tema dell’attribuzione del diritto d’autore è già di per sé di grande complessità. In aggiunta, o in un contesto più ampio dell’attribuzione di un’opera, di una scoperta scientifica o di una nuova applicazione tecnica, vi sono molte sfaccettature che vanno al di là della giusta remunerazione. Ad esempio, se l’IA è utilizzato per ricerche o analisi su temi molto specifici, dove sono disponibili un numero limitato di fonti, non diventa più impellente che l’autore venga identificato e riconosciuto? A quante fonti potrà rivolgersi l’AI per domande sulla ligustica medievale o sulle lingue prelatine? E, appunto, come gestire i casi in cui le risposte del sistema sono semplici parafrasi di un articolo accademico o di un articolo di giornale?

Il costo dell’informazione

Vi sono poi i casi in cui la raccolta di dati e informazioni è molto costosa. Chi vorrà investire in ricerche il cui utilizzo non sarà propriamente riconosciuto o remunerato? Come si può assicurare una corretta e giusta attribuzione delle fonti? Se, per esempio, il sistema produce informazioni sul risultato di un’elezione politica o di una partita di calcio senza concordare con l’agenzia di stampa che ha i suoi inviati sul luogo? O se riporta paro paro l’esperienza personale di un reporter di guerra che ha rischiato la vita sul posto senza attribuirne la fonte?

Insomma, senza dubbio una qualche forma di riconoscimento delle fonti utilizzate e potenzialmente un sistema di remunerazione di ciò che contribuisce all’IA andrà trovato. Come si è visto, tuttavia, al momento le difficoltà appaiono quasi insormontabili, data la numerosità delle fonti, il loro diverso peso e la imponderabilità dei singoli contributi: sarebbe come ricostruire il contributo che quello specifico romanzo di Balzac o quel giornalino di Tex Willer letti a quindici anni hanno plasmato il timbro linguistico di questo articolo.

Un sistema aggressivo di difesa del copyright presenta anch’esso importanti rischi sociali. Una conseguente restrizione delle fonti utilizzate potrebbe risultare deleteria, quasi esiziale, per l’intero progetto di intelligenza artificiale o in ogni caso determinare un progressivo impoverimento della qualità di quanto prodotto.

Pensiamo a cosa avviene se escludiamo un esperimento scientifico o un trial clinico che ha richiesto anni di lavoro e che è stato certificato attraverso vari passaggi sperimentali, secondo metodologie strettamente definite, o gli attribuiamo lo stesso peso di affermazioni estemporanee, magari presentate da improvvisati proponenti di teorie cospiratorie, spesso nascosti dietro l’anonimato. Tolti Copernico e Galileo, ci ritroviamo presto con la terra piatta. Se limitiamo le fonti su cui si esercita l’intelligenza artificiale, per esempio a solo quelle disponibili gratuitamente, è ragionevole pensare che la qualità dell’output peggiori rapidamente.

Come si è recentemente interrogata la rivista The Economist, rivista autorevole, naturalmente orientata verso soluzioni di libero mercato: “il copyright permetterà ai robot di imparare?”.

Il modello di una intelligenza “chiusa”

L’alternativa potrebbe essere quella di costruire sistemi di AI che limitano il proprio apprendimento a un set informativo chiuso, con input selezionati, ridotti e monotematici. È il caso di molti sistemi in uso già oggi a scopo commerciale e con obiettivi predefiniti, come i chatbot di banche e assicurazioni. Certamente perfettibili, ma l’esperienza è abbastanza sconfortante: ben allenati a rispondere a domande banali tipo “quant’è il mio saldo?”, entrano di solito in sofferenza appena si esce dal seminato (cioè quando servirebbero davvero); le loro capacità umanoidi si rivelano presto insufficienti a non farci rimpiangere l’assenza dei più costosi umani veri.

Estremizzando un po’, un AI che riduce la varietà dei testi utilizzati, nel tempo, non può che risultarne depauperato; o in alternativa potrebbe evolvere verso scenari distopici: si possono immaginare gli istinti e le propensioni di un AI “educato” sui testi fondativi del nazismo. Nel caso di un umano, si potrebbe sperare che, pur cresciuto a pane e testi nazisti, possa controbilanciare una tale esposizione con il ricorso innato a sentimenti quali la solidarietà, la pietà, l’orrore provato davanti ad atti di brutalità e violenza (non vale per tutti, come si sa, specialmente tra molti soldati da tastiera). Tali sentimenti non risultano tuttavia a disposizione di un sistema di AI.

La recente diatriba intorno a ChatGPT (et similia) ha dato notevole visibilità al fatto che, alla sua origine, i fondatori avevano inteso dare una forma di governo not for profit, non a scopo di lucro. Dalla analisi sopra, pur molto semplificata, se ne intuisce la ragione: una struttura indipendente e senza scopo di lucro può di certo meglio garantire che si evolva verso una intelligenza artificiale “universale”, che garantisca la qualità dei contenuti e si arricchisca nel tempo con l’utilizzo di un’ampia diversità di fonti; che si dia regole, magari anche semplificate, di attribuzione dei diritti di autore e che riconosca la paternità dell’atto creativo; che indirizzi il tema dell’inquinamento informativo, senza pregiudicare la ricchezza dei punti di vista.

L’IA tra accelerazionisti e tecno-ostili

Le recenti vicende hanno però evidenziato anche che l’accanita competizione e il rilevantissimo dispiego di risorse necessario difficilmente sono compatibili con un sistema di governo societario che non preveda la rapida appropriazione dei benefici dello sviluppo della tecnologia.

È uno scenario, per molti versi, non diverso, sia pure fortemente amplificato, rispetto a quello che ha caratterizzato i social media – peraltro risolto in maniera così poco soddisfacente (in modo particolare nel caso di X, l’ex-Twitter). È una tensione tipica dei momenti in cui si accelera l’innovazione tecnologica. Vi è già una vera e propria contesa fra coloro che Guido Brera ha definito “tecno-ostili” o “apocalittici” ed i cosiddetti “accelerazionisti” dell’IA. Lo storico economico della Columbia University Adam Tooze ha di recente fatto un parallelo fra i cosiddetti accelerazionisti dell’AI e Palazzeschi, Marinetti, Govoni e Soffici, i futuristi che esaltavano la tecnica cantando

“i piroscafi avventurosi che fiutano l’orizzonte, le locomotive dall’ampio petto, che scalpitano sulle rotaie, come enormi cavalli d’acciaio imbrigliati di tubi, e il volo scivolante degli aeroplani, la cui elica garrisce al vento come una bandiera”.

Le similitudini non mancano; il manifesto futurista metteva in luce la “fede cieca” nel progresso: annunciando in qualche modo di voler distruggere le biblioteche alle quali si faceva cenno in apertura di articolo, invitava ad affidarsi alle macchine.

Quello che si è voluto qui evidenziare è che per passare da “tecno-ostili” a “tecno-utopisti” è necessaria una sintesi che mantenga l’innovazione su un binario giusto e controllato, prestando cura a non frenarne eccessivamente la corsa. Una prospettiva possibile, ma che richiede una concordia difficile da ottenere in un’epoca così polarizzata.

D’altronde, se la materia non fosse particolarmente complicata non si annovererebbero, fra coloro che hanno avanzato perplessità nei confronti degli sviluppi dell’AI generativa, lo stesso Sam Altman, CEO di Open AI – Chat GPT, il volatile Elon Musk (che l’ha definita “potenzialmente più pericolosa delle armi nucleari”), Steve Wozniak, fra i fondatori di Apple, e Bill Gates insieme ad altri 1,800 circa fra imprenditori ed esperti nel settore. La richiesta era quella di una pausa di almeno 6 mesi per lavorare al tema della sicurezza della generative AI, onde evitare “gravi rischi per la società e l’umanità”.

Sam Altman, CEO di Open AI

È da questa prospettiva che si deve guardare all’accordo siglato poco più di un mese fa dal Parlamento europeo e dal Consiglio europeo – in coordinamento con la Commissione – a valle di una maratona negoziale durata più giorni.

Il lavoro sull’AI Act – che andava avanti da anni – affronta il tema in una prospettiva a 360 gradi che, oltre alla generative AI, include anche altri temi, tanto importanti quanto spinosi, quali il riconoscimento delle emozioni, il social scoring (in parte discusso nel nostro precedente articolo sul magazine di Fondazione Feltrinelli), le tecniche manipolative e molto altro. Ne è risultato un accordo ben più ambizioso del piano firmato in autunno da Biden sul medesimo tema, che non prevede obblighi, rischi e sanzioni per le imprese operanti nel settore.

Il primo regolamento sull’Intelligenza artificiale

Insomma, l’Unione Europea è la prima al mondo ad adottare una normativa che disciplini in maniera organica il settore: un bel traguardo per il mercato unico più grande al mondo; si tratta peraltro di una buona sintesi che salvaguarda l’innovazione affiancandovi regole “giuste”.

Qualche dettaglio in più sui temi della regolazione e del copyright lo ha di recente spiegato l’eurodeputato Brando Benifei, co-relatore dell’AI Act al Parlamento Europeo, in un’intervista rilasciata a Pandora Rivista. Per quanto riguarda il primo tema, l’europarlamentare conferma la necessità di dotarsi di regole, il cui carattere globale non porrebbe la questione di divari competitivi; mentre in tema di copyright il protocollo approvato prevede uno strumento di trasparenza e la non utilizzabilità dei contenuti proprietari per “allenare” i sistemi senza un consenso fra le parti: a queste regole, forse con un certo ottimismo, l’eurodeputato conclude che non ci sarebbe stata alcuna causa stile “New York Times”.

Si può dubitare che questa sia l’ultima parola in materia: come si è visto il tema presenta grandissime complessità; e limitare troppo l’utilizzo delle fonti può avere impatti negativi importanti sulla qualità e l’affidabilità dei sistemi. Come sempre in questi ambiti, le regole andranno scritte, riscritte, aggiornate e modificate per stare al passo con una materia che avrà prevedibilmente rapidissime evoluzioni.

Ciononostante, si può essere lieti che l’Unione Europea – spesso vituperata per lentezza e burocrazia – abbia preso l’iniziativa, in modo trasparente ed energico – su una materia così delicata, dove l’imposizione di regole condivise, ma applicate con rigore, non è un’opzione, ma un’impellente necessità.

Potrebbe interessarti anche

Algo-cracy:
il lavoro di piattaforma tra sfruttamento,
conflitto e nuovi diritti

leggi la rubrica

 

 

La Fondazione ti consiglia

Resta in contatto