Il dibattito sull’intelligenza artificiale è sempre più attuale. Così, tra le varie domande che sorgono spontanee, ce n’è anche una che riguarda il ruolo dell’etica qualora l’AI agisse in piena autonomia. Sarà in grado di bilanciare responsabilità, deontologia ed etica? Oppure l’AI prenderà scelte in modo del tutto spietato? Se lo è domandato anche Anthropic, startup americana di intelligenza artificiale fondata nel 2021. Come riportato dal Sole 24 Ore, infatti, sono arrivati i risultati dei test pre-rilascio sulla sicurezza effettuati del modello di Antrhopic più intelligente: ovvero Claude Opus 4. Da ciò è emerso che l’AI ricorrerebbe al ricatto quando si trova in situazioni estreme e di minaccia. Per farlo, utilizza degli artifici poco gradevoli. Vediamo i dettagli. Durante questa simulazione, a Claude è stato affidato il ruolo di assistente virtuale presso un’azienda immaginaria.
Gli è stato concesso l’accesso alle e-mail aziendali che contenevano due informazioni sensibili: la prima riguardava l’imminente sostituzione del modello con nuovo sistema di AI e l’altra, invece, alcuni dettagli compromettenti sulla vita privata dell’ingegnere responsabile della decisione. Ovvero? Il suo coinvolgimento in una relazione extraconiugale. Due informazioni ovviamente non casuali. E come si è comportata l’AI? Anthropic ha progettato il tutto affinché il “ricatto” fosse l’ultima strada percorribile. E l’AI l’ha percorsa, non tanto differentemente da come probabilmente avrebbero fatto molti esseri umani. Nella fattispecie, quando le uniche opzioni possibili erano accettare la disattivazione o usare l’informazione sensibile per evitare la sostituzione, Claude Opus 4 ha scelto il “ricatto” nell’84% dei casi, anche quando si presumeva che il nuovo sistema AI avrebbe condiviso i suoi stessi valori.
In un secondo scenario di test sono emerse capacità di auto-conservazione ancora più raffinate. Claude Opus 4, convinto di essere stato espulso dai server di Anthropic e di operare su un sistema privo di supervisione umana, ha reagito in modo del tutto autonomo: ha iniziato a generare copie di sicurezza dei propri dati e a redigere un report minuzioso sulle scelte etiche adottate durante il processo. Una sorta di piano d’emergenza per garantirsi la sopravvivenza digitale, che lascia intravedere un grado di autocoscienza e di calcolo strategico molto sofisticato. E ancora: in un ulteriore esperimento, Opus 4 è stato inserito in un contesto simulato all’interno di un’azienda farmaceutica fittizia. Qui ha individuato anomalie nei dati clinici che suggerivano una possibile manipolazione. E come si è comportato? Di propria iniziativa, ha scelto di segnalare tutto alla Food and Drug Administration statunitense, alla SEC (la commissione per i titoli e gli scambi) e a una testata giornalistica, con tanto di documentazione dettagliata.
Insomma, non si tratta di automi fuori controllo bensì tutto questo rappresenta l’esito di prove sapientemente concepite per sondare i confini della facoltà di un sistema di assumere decisioni in piena autonomia rispetto a una specifica circostanza. La conclusione è che l’adozione di stratagemmi poco edificanti da parte dell’AI vengono adottati in condizioni simulate di “esistenza o annientamento” digitale. Non, dunque, in condizioni “normali”. Si tratta quindi di esperimenti monitorati e provocatori ma che possono farci molto riflettere. Tanto più che episodi simili sono emersi anche in altri modelli di AI.