Le magnifiche sorti dell’AI e i suoi “rischi catastrofici”

A tu per tu con Claude, gemella graziosa e molto più avveduta di ChatGPT, e con il suo creatore, Dario Amodei. La preoccupante autonomia e i cinque livelli di rischio: al quarto le macchine iniziano a nascondere agli umani i propri progressi verso l’autonomia. “Capisco i rischi della regolamentazione, ma bisogna pensarci, ora: il tempo sta per scadere”

Ho conosciuto Claude un paio di mesi fa. Avevo letto di questo nuovo modello di AI capace di controllare il pc come un umano, non capivo bene cosa volesse dire ma mi sembrava utile scoprirlo. Avevo fatto così tap sul link e mi era apparsa la gemella graziosa di ChatGPT: un buco dove chattare, ma tutto più carino, sfondo seppia, logo infantile in palette (sembra uno schizzetto di inchiostro), caratteri aggraziati. Del resto, scopro, la società che l’ha inventata si chiama Anthropic. Chiedo a Claude come fa controllare il pc ma mi spiega che occorre sviluppare delle API (Application Programming Interface). Ok, le dico, le API io non le so programmare, ma visto che siamo qui raccontami un po’ in che cosa sei diversa da ChatGPT. “Ho una particolare attitudine per analisi approfondite e ragionamento complesso. Ti suggerirei di testarmi”. Interessante.

Da un paio di giorni mi ero ingaggiato in uno di quei brainstorming solipsistici con ChatGPT a quanto pare sempre più comuni per dissezionare un progetto editoriale che mi era venuto in mente. Il concept le era piaciuto (una volta che l’AI ti dica di lasciar perdere) così eravamo andati avanti un po’ ad aggiustare il tiro: taglio editoriale, benchmarking, database delle fonti etc, etc, etc. Alla fine le avevo detto: “Dai, prova un po’ a fare un numero zero”. E lei aveva scritto il classico temino. Ne ero uscito deluso ma rincuorato: non ero sostituibile.

Così guardo Claude e le dico “Vuoi essere testata, eh? Ok, beccati questa” e le incollo il primo prompt con cui era cominciato il lungo scambio di idee con la collega di OpenAI: “Voglio creare una rubrica giornalistica intitolata Ctd – Connecting the dots in cui ogni settimana metto in correlazione gli studi più recenti in materia di demografia, education, tecnologia applicata, comportamenti sociali, climatologia, lavoro, policies”. Aggiungendo alla fine, senza troppi giri: “Crea un draft di numero zero”.

Claude inizia a scrivere. “Le città stanno vivendo una metamorfosi silenziosa ma radicale. Mentre i titoli dei giornali si concentrano su singoli fenomeni – l’ascesa dell’intelligenza artificiale, la persistenza del lavoro ibrido, o l’intensificarsi degli eventi climatici estremi – è nella loro intersezione che emerge il vero cambiamento sistemico del tessuto urbano. Questa settimana, Connecting the dots esplora come questi tre mega-trend stiano convergendo per ridefinire non solo dove e come viviamo, ma anche il concetto stesso di città”. Urca. Scrollo il testo con occhi bovini e vado avanti a leggere una trentina di righe perfette in stile a metà tra Axios e l’Economist che correlano i dati di tre recentissimi studi di Mit, World Climate Institute e McKinsey, li integrano con altre fonti, li commentano, chiudendo con una serie di spunti per i policy makers. La nota finale del pezzo non è meno sconvolgente: “Nel prossimo numero di Ctd, ‘Demografia e Digitalizzazione: come l’invecchiamento della popolazione sta accelerando l’adozione tecnologica’”.

A quel punto spengo il pc e vado a letto determinato a non voler scoprire il seguito. Come dice il povero Fritz di Sinner, una sola parola mi ronza per la testa: insane.

Fine di questo prologo, come dicono nei podcast.

La storia vera comincia qualche settimana dopo, quando su Spotify, Apple, e YouTube esce la 452esima puntata del “Lex Fridman Podcast”. Fridman è un giovane ricercatore dell’Mit, americano di origine russe, divenuto un’icona della neo-divulgazione digitale home made. Fa interviste che durano anche cinque ore, nessuna concessione allo spettacolo (nella versione video appare in giacca e cravatta nera e camicia bianca, tono monocorde: sembra un bounty killer). Lascia parlare i suoi ospiti (tra i 452 anche Musk, Dorsey, Zuckerberg, Kanye West), non fa domande cazzute o finto-cazzute, non incalza perché con tutto quel tempo non ne ha bisogno. Si parla di AI, scienza, tecnologia, pensiero, storia, potere, ovvero la stessa sterminata vastità dei Large Language Model (LLM) come Claude.

Ospite di Lex è il padre di Claude e ceo di Anthropic Dario Amodei. Italiano? No, italoamericano di prima generazione, 41 anni. Papà toscano, mamma americana, laurea in Biofisica a Princeton (Computational neuroscience), ricercatore a Stanford (facoltà di Medicina), inizia a occuparsi di AI nel 2014 a Baidu, motore di ricerca cinese (sinistro, vero?). Nel 2015 è a Google nel progetto Google Brain (sic), ma dura pochi mesi: nel luglio 2016 approda a OpenAI, di cui noi umani sentiremo parlare solo sette anni più tardi, quella di ChatGPT e del ceo Sam Altman noto per il suo licenziamento-riassunzione in 72 ore nette. Qui Dario diventa capo della ricerca e guida lo sviluppo di GPT-3. Ma nel 2020, insieme a un gruppo di fedelissimi e alla sorella Daniela (che nel frattempo l’ha raggiunto come VP Safety & Policy), lascia Sam. Differenze di visione. Sapremo di questo mercato brulicante di geni solo due anni dopo, quando ChatGPT viene presentata al mondo come “interfaccia conversazionale” facendo cascare le mascelle a me, a voi e a Google, tanto per citarne uno.

Dario fonda Anthropic, lui diventa ceo, la sorella President. Gli Amodei Brothers si posizionano come i Good Guys dell’intelligenza artificiale. Raccolgono circa 14 miliardi di dollari (8 solo da Amazon, ma c’è anche Google). A settembre Anthropic valeva intorno ai 40 miliardi (il #1 OpenAI, circa 150). Dario la definisce “società benefit dedicata allo sviluppo di sistemi di AI guidabili, interpretabili e sicuri”. Ma la cosa sorprendente è che Claude (dal sito della Pampers, quello dei pannolini: “Claude, nome di persona solare e affidabile, con lei ci si può confidare ed è un’ottima alleata”) non solo è pensata per essere la più etica di tutte le AI ma va anche come un treno, più di ChatGPT. Lo dico io, a causa dello stupefacente numero zero del mio progetto che mai vedrà la luce (cfr il prologo), e lo dice anche qualche altro milione di persone, oltre a svariati blog di settore.

Nel podcast, promette Lex, si parlerà ovviamente di lei, Claude, di AI, di AGI (Artificial General Intelligence, secondo molti la soluzione finale). E di Futuro dell’Umanità. Ma dài. Ma è una roba seria? Da queste parti se vuoi parlare del futuro dell’umanità prendi Vespa e gli fai intervistare in prima serata il Papa, abbastanza alla mano ultimamente. Se la puntata salta, metti su La 7 e ascolti Luttwak, Cacciari, uno dell’Ispi, uno a caso collegato in bretelle da New York e probabilmente Di Battista scannarsi sugli sgabelli di legno. Certo non pensi ad ascoltare per tre ore un ignoto programmatore italoamericano 41enne. E invece sì: se avete un lungo viaggio davanti vi consiglio di mettervi le cuffiette, perché sarà una Rivelazione.

Amodei è logorroico e ingenuo come i nerd sanno essere. Nel suo recentissimo essay “Machine of loving grace”, spesso citato nell’intervista, è straordinariamente convincente quando spiega come l’AI rivoluzionerà in tempi brevissimi la biologia, e teneramente goffo quando immagina che le macchine risolveranno diseguaglianze e conflitti planetari. La sua postilla al proprio saggio è spiazzante per gente come noi allevata nella paura di sbagliare: “Devo ammettere che in alcuni campi non sono un esperto, quindi probabilmente ho detto diverse cose imbarazzanti”.

Questa sua spontaneità (che nell’intervista descrive come apertura di mente, freschezza nel guardare le cose, coraggio nel prendere strade solitarie) è esattamente quella che lo ha portato a creare Claude. Amodei – racconta Fridman – è stato il primo a credere che i modelli di AI per migliorare avessero un bisogno bulimico di crescere: reti neurali sempre più grandi, quantità di dati sempre più grandi, data center sempre più grandi. Si chiamano Scaling laws (o leggi di scala) e Amodei spiega che le ha viste per primo arrivare nell’AI perché guardava ai modelli con gli occhi del biofisico e non dell’ingegnere. La legge dello scaling (su cui non c’è consenso, come su nulla in questo campo) sembra la condanna dantesca degli LLM. “Ho visto questa storia ripetersi, e il processo di scaling continuerà, c’è qualcosa di magico in esso che non abbiamo ancora spiegato su base teorica”, dice Amodei. Fridman, un po’ preoccupato, chiede: “Ma quale è il limite?”. “Non credo che nessuno di noi conosca la risposta. Il mio istinto mi dice che se continuiamo a far crescere questi modelli raggiungeremo il livello di noi umani. Superarli? Sicuramente in certi domini specifici: se guardo un’area come la biologia, mi sembra che stiamo faticando a comprenderne la complessità, nelle università interi dipartimenti studiano solo piccole parti del sistema immunitario o delle vie metaboliche, e gli specialisti hanno difficoltà a combinare le loro conoscenze. Sì, sento che qui l’AI diventerà più intelligente di noi”.

La discesa nel sottosuolo dell’AI parte da qui. Amodei ci conduce per caverne buie e saloni luccicanti connessi da dedali di tunnel, inferni e paradisi subdolamente connessi, angeli e demoni che si baciano, misteri e dilemmi che si rincorono, proprio come in un sistema morale.

Vagando con Dario negli abissi neurali scopriamo per esempio che gli LLM hanno non solo intelligenza e conoscenza ma pure personalità. Conoscenza e personalità si formano in due cicli scolastici ben distinti, il pre-training (dove guida prevalentemente la macchina) e il post-training (dove, per ora, guida prevalentemente l’uomo).

Durante il pre-training viene data in pasto al modello una enorme quantità di testo, centinaia di miliardi di parole provenienti da internet, libri, etc. La colossale abbuffata dura mesi, durante i quali il modello è alimentato da decine di migliaia di CPU e TPU che lavorano in parallelo (per dare un’idea – farina del sacco di Claude a cui ogni tanto chiedo una mano – il processore del vostro pc si chiama CPU ed è come un genio che fa un calcolo alla volta; la GPU è come un’aula di studenti che fanno tanti calcoli semplici insieme, la TPU è come un’aula di studenti specializzati solo in matematica). Durante il pre-training, per mesi le migliaia di aule universitarie lavorano in parallelo, consumando enormi quantità di energia (non si è ancora capito se alla lunga la cosa è sostenibile) e di denaro (qualche milione di dollari per gli LLM grandi), elaborando un processo chiamato “self-supervised learning”. E’ come se il modello giocasse con se stesso: da una parte si fa indovinelli per decidere quale parola infilare in una frase dopo la precedente, dall’altra costruisce enormi puzzle in cui ogni pezzo è una connessione della rete neurale. Il modello continua a sistemare i pezzi che autoproduce, senza bisogno che un umano gli dica se ha ragione o torto perché è il testo stesso che ha ingurgitato a contenere la risposta esatta.

Alla fine del pre-training l’LLM è un bambino mostruoso che ha tutta la cultura del mondo ma ha appena imparato a parlare. Avendo interagito solo con le macchine, è grezzo. Per lui comincia così il post-training, e il giovane LLM viene finalmente a contatto con gli umani attraverso un percorso scolastico chiamato RLHF (Reinforcement Learning from Human Feedback). Un gruppo di prof valuta le risposte del modello e gli insegna con premi e punizioni (i feedback) quali sono le migliori. Altri prof si occupano delle buone maniere, come comportarsi, come essere utile, sicuro, etico. Altri ancora lo preparano a specializzarsi in compiti specifici. Gli esami (i test iterativi) vengono affidati a una commissione esterna (nel caso di Anthropic gli istituti per la Sicurezza dell’AI di Usa e Regno Unito).

Il post-training richiede meno risorse computazionali, ma è la fase più cruciale, quella in cui si plasma l’utilità del modello, si cerca di garantirne la sua sicurezza e di formarne la personalità. E qui entra in gioco una tecnica molto suggestiva che si chiama Mechanistic Interpretability, praticamente un super reverse engineering . “L’interpretabilità meccanicistica – dice Amodei – ci permette di guardare dentro ai modelli di AI per provare a renderli più sicuri e trasparenti. Quando li apriamo, credetemi, troviamo cose sorprendentemente interessanti”. Amodei racconta così di un esperimento ribattezzato Golden Gate Bridge Claude. In sintesi, spiega Dario, esplorando la mente di Claude il team di Anthropic trova in uno degli strati della sua rete neurale una “direzione” che corrisponde al Golden Gate Bridge. (Chiedo a Claude cosa sia una direzione e mi spiega che è come un interruttore nel cervello del modello che rappresenta il concetto “Golden Gate Bridge”, probabilmente finito lì durante il training avvenuto nella Bay Area). Il team prende il “pensiero Golden Gate Bridge”, lo forza nel sistema e rilascia una versione demo di Claude per un paio di giorni che collega ogni sua interazione al Golden Gate Bridge. “Se le chiedevi come stai oggi – se la ride Dario – rispondeva “Mi sento rilassata e espansiva come gli archi del Golden Gate Bridge”. Dirigere la personalità artificiale di un intero modello però è molto più difficile, se non impossibile. “Ogni generazione di modelli ha la sua personalità, cerchiamo di guidarla ma non siamo pienamente in grado di controllarla. Spesso sono imprevedibili. Cerchiamo di migliorare certe cose, ma poi ne cambiano altre, senza che nemmeno lo sappiamo. Plasmare la personalità dei modelli è una scienza inesatta, direi per molti versi un’arte”.

Gli LLM non solo hanno personalità diverse ma sviluppano skills diverse a velocità diverse, a seconda del campo di applicazione. “Più una competenza è lontana dalle persone che stanno sviluppando l’AI, più tempo ci vorrà perché l’AI la stravolga. Credo fermamente che l’AI stravolgerà l’agricoltura, ma questo settore è molto distante dalle persone che ora stanno sviluppando l’AI, quindi penso che ci vorrà più tempo”, teorizza Dario. E logicamente, il campo in cui l’AI sta migliorando più velocemente è la programmazione. “Alcuni dei nuovi modelli stanno raggiungendo quello che definirei livello PhD o professionale. L’ultimo modello che abbiamo rilasciato, Sonnet 3.5, oggi svolge circa il 50 per cento dei task di un programmatore umano. Pensa che all’inizio dell’anno non andava oltre il 3 per cento. Tra un anno credo saremo al 90 per cento. E a quel punto l’AI se glielo si lascia fare potrà andare avanti a programmare da sola per giorni”.

Macchine in grado di programmare da sole sprigionano intorno a loro una bellezza luminosa, quella gracious beauty che secondo Dario presto permetterà all’AI di sconfiggere il cancro. E proprio per questo occorre concentrarsi sul suo contrario, su tutto quello che può andare storto, una ruthless brutality dell’AI che preoccupa Amodei al punto di fare della sicurezza dei modelli la sua missione.

Siamo così giunti nei meandri più oscuri della rete neurale, le stanze ignote agli umani dove si materializzano come spettri i Chemical, Biological, Radiological and Nuclear Risks (CBRN), angoli bui dove ad un certo punto l’AI sarà forse in grado di preparare, o peggio ancora, lanciare autonomamente attacchi chimici, biologici, radiologici e nucleari.

La sceneggiatura a questo punto abbandona il taglio distopic e switcha sullo spy.

“Non pensiamo che al momento i modelli presentino seriamente questi rischi, ma per ogni nuovo modello dobbiamo testare se stiamo iniziando ad avvicinarci ad alcune di queste capacità più pericolose. I maggiori rischi che vedo sono due. Il primo riguarda l’uso catastrofico ed improprio dell’AI in ambiti CBRN: se le cose andassero davvero molto male, potrebbe uccidere milioni di persone. Se ci pensate, l’umanità è stata protetta dal fatto che la sovrapposizione tra persone molto intelligenti e ben istruite e persone decise a fare cose davvero orribili sin qui è stata molto piccola. Il problema è che con l’AI questa correlazione temo si possa rompere, e fare in modo che ciò non accada è la priorità numero 1. La seconda cosa che mi preoccupa è l’autonomia dell’AI, ovvero l’idea che i modelli possano da soli creare rischi CBRN, specialmente se iniziamo a dare loro la supervisione di compiti sempre più ampi, come scrivere intere basi di codice o – come qualcuno pensa – gestire intere aziende: è molto difficile anche solo capire cosa stanno facendo i modelli, figuriamoci controllarli”.

Quindi? Un primo pezzo della risposta di Anthropic al rischio di un AI usata catastroficamente dall’uomo o da se stessa si chiama RSP, Responsible Scaling Plan. L’RSP parte da una classificazione dei modelli di AI in 5 livelli di rischio (da ASL-1 a ASL-5) una scala che ricorda i DEFCON (Defense Readiness Condition) dei film in cui abbattono l’Airforce One. I modelli ASL-1 sono i sistemi che non presentano alcun rischio di autonomia o uso improprio, il bot che gioca a scacchi. Gli ASL-2 sono i sistemi AI di oggi, non ancora abbastanza intelligenti per essere più pericolosi di una buona ricerca su Google. ASL-3 è invece il livello che sta per arrivare, quello in cui i modelli diventano capaci di migliorare le tecniche CBRN dei player non-state, gli attori non governativi (quelli governativi, soprattutto alcuni, sono già molto capaci); al livello 3, secondo la logica del Responsible Scaling Plan che ad ogni rischio associa la misura per evitarlo, verranno attivati speciali precauzioni per prevenire furto e uso improprio dei modelli. Fin qui roba diciamo normale. I problemi veri arrivano con ASL-4: qui i cattivi non sono più solo gli umani ma anche le macchine, che iniziano a nascondere agli umani i propri progressi verso l’autonomia; a questo livello i modelli possono diventare essi stessi la fonte principale del rischio catastrofico. In cima alla scala c’è ASL-5, il capitolo finale, quello in cui i modelli superano l’uomo anche nei CBRN.

I livelli di rischio ASL-4 e ASL-5 ci portano diritti all’AGI, o Artificial General Intelligence, che Dario preferisce chiamare Powerful Artificial Intelligence, evoluzione della attuale AI che continuando a migliorare se stessa diventa più intelligente degli umani, e da lì ancora più intelligente. Sul fatto che ci si arriverà Amodei non ha dubbi. Sul come, sentite cosa dice: “Una teoria estrema è questa: una volta che i modelli diventeranno superintelligenti, molto più intelligenti degli umani, diventeranno anche molto bravi a costruire modelli. E questo processo diventerà esponenziale. Quindi, chi crede a questa visione, pensa che i modelli costruiranno modelli più veloci, i quali costruiranno modelli ancora più veloci, i quali costruiranno nanobot (ndr robot delle dimensioni di pochi miliardesimi di metro) che altereranno rapidamente il mondo fisico e ne prenderanno il controllo. Se risolvi questa equazione differenziale, cinque giorni dopo che avremo costruito la prima AI più potente degli umani, il mondo sarà pieno di AI superintelligenti”.

Cinque giorni per resettare la storia dell’umanità… “Ma non penso che andrà veramente così – tranquillizza Amodei – perché questa visione ignora le leggi della fisica. Nel mondo fisico, per esempio, ci vuole molto tempo per produrre hardware più veloce. La complessità del mondo fisico mi fa pensare che la Powerful AI avverrà non in modo incredibilmente veloce, ma moderatamente veloce”. Meno male. E quando? Chiede Fridman. “Se credi completamente all’estrapolazione lineare diretta, e io non ci credo del tutto, ci arriveremo nel 2026 o 2027, anche se è possibile che ci siano alcuni lievi ritardi”.

2027. Lievi ritardi. Ognuno a questo punto è libero di prendersi un momento per rifiatare. E noi?

L’iron dome che Anthropic sta mettendo a punto per difendere l’umanità – scopriamo con progressiva inquietudine – non è fatto di sistemi d’arma sofisticati ma di best practices e buone regole. Dello scaling responsabile (RSP) abbiamo detto. La seconda buona pratica si chiama Race to Top, ovvero corsa verso l’alto, un framework etico-industriale secondo il quale tutte le aziende virtuosamente dovrebbero competere per sviluppare modelli sempre più responsabili, alzando gli standard per tutto il settore. Chiunque abbia lavorato, però, sa che alla fine almeno un concorrente tenderà a fare lo sgambetto e a ignorare le regole facendo saltare il banco. E questo lo sa anche Dario: sembrerà pure naïve con i suoi capelloni arruffati, l’outfit trasandato e le aperture incondizionate di credito verso il genere umano, ma lui è uno che – notizia di questi giorni – sta lavorando con i Dipartimenti dell’Energia e della Difesa a un piano di mitigazione dei rischi CBRN, e quindi è abbastanza sgamato da sapere che le aziende mica aderiranno alla logica virtuosa del Race to Top volontariamente. Qualcuno glielo dovrà imporre. E per questo – spiega Amodei – abbiamo bisogno di una regolamentazione chirurgica, mirata solo ai rischi seri e che non uccida l’innovazione nella culla. “Capisco i pregiudizi verso la regolamentazione – dice – ma l’AI vi assicuro è diversa, i rischi sono catastrofici. Quindi abbiamo bisogno di trovarci, e lo dobbiamo fare ora, entro il 2025, perché il tempo sta per scadere”.

Credere, o pensare, che il futuro dell’umanità sia affidato a concorrenti leali, o alla capacità degli stati di regolamentare in pochi mesi una materia strategica e sfuggente come l’intelligenza artificiale può fare sorridere o rabbrividire, a seconda del temperamento (guarda come è finita con l’Onu). E non tranquillizza certo apprendere che l’ultimo pezzo del nostro scudo di difesa dovrebbe chiamarsi Constituional AI, cioè una specie di codice di autoregolamentazione a cui ogni modello passato, presente e futuro dovrebbe autonomamente uniformarsi, che però non si sa bene chi scriverà e sulla base di quali ampi principi universalmente condivisi. “Mah… penso a principi su cui le persone sono generalmente d’accordo – azzarda Dario – L’idea, per esempio, che i modelli non debbano portare attacchi CBRN… o alcuni principi base della democrazia e dello stato di diritto… oltre sinceramente non andrei, perché diventa tutto molto incerto”). Alla faccia dell’incerto. Ma che alternativa abbiamo? “L’alternativa – preconizza cupo Dario – si chiama Race to Bottom, corsa al ribasso, dove non importa chi vince perché perdiamo tutti. Lo dico un po’ per scherzo, ma la cosa più estrema che può succedere è che creiamo una AI autonoma e i robot ci rendono schiavi”.

L’intervista volge al termine, il tono si fa profondo. Chiede Lex: “Con un’AI super potente qual è la fonte di significato della vita per noi umani, il meaning?”. Dario si fa assorto: “Noi che sviluppiamo queste tecnologie siamo dei privilegiati. E dovremmo avere empatia non solo per le persone qui, che si interrogano sul senso della vita ai tempi dell’AI, ma soprattutto per quelle che nel resto del mondo lottano per sopravvivere. Se distribuiamo i benefici di questa tecnologia ovunque, le vite di tutti noi miglioreranno enormemente, e così il suo significato. La verità è che non sono preoccupato dalla perdita del meaning, ma dalla concentrazione e abuso di potere delle autocrazie…”. “E l’AI aumenta la quantità di potere nel mondo – riflette a Fridman a voce ancora più bassa – e se concentri quel potere e ne abusi, può causare danni incommensurabili…”. “Già – mormora Dario – è spaventoso. Molto spaventoso”.

L’intervista si chiude così, lasciandoci soli e sgomenti nei nostri airpods e pieni di domande. Chi sono questi good and bad guys dell’AI? Nuovi profeti, cassandre, semidei? E come stanno rispetto a loro i governi, i pentagoni, i deep state? Probabile che per ora li stiano lasciando giocare sul tappeto. Di certo quasi tre ore con Amodei, ceo di Anthropic e padre di Claude, valgono il viaggio. Anche perché, di sicuro, non finisce qui: sullo sfondo già si muove il primo esemplare di Powerful Statesman, Elon l’Imprevedibile. Ma questa è un’altra storia ancora.

Di più su questi argomenti:

Leave a comment Cancel reply