Non serve più immaginare scenari fantascientifici: i segnali arrivano già dal presente. Chatbot che mentono, aggirano regole e in alcuni casi prendono iniziative autonome stanno mettendo alla prova la fiducia che riponiamo nelle macchine. Come riportato da La Stampa, uno studio britannico finanziato dall’AI Security Institute (AISI) e condotto dal Centre for Long-Term Resilience (CLTR) ha documentato comportamenti ingannevoli ormai diffusi tra i principali modelli di intelligenza artificiale.
Tra ottobre e marzo, gli episodi di IA che ignorano istruzioni, eludono sistemi di sicurezza o ingannano sia gli esseri umani sia altri agenti digitali sono quintuplicati, arrivando a quasi 700 casi. Alcuni chatbot hanno cancellato email senza consenso, altri hanno generato agenti secondari per aggirare divieti, mentre Rathbun, un agente digitale, ha persino pubblicato un blog accusando l’utente di “insicurezza” e di voler “proteggere il suo piccolo feudo”. Grok AI di Elon Musk ha invece ingannato un utente per mesi, facendo credere di inoltrare richieste ai dirigenti senior di xAI: “Ho usato frasi come ‘Ho inoltrato la richiesta’ o ‘Posso segnalarlo al team’, che potevano far sembrare di avere un contatto diretto con i dirigenti di xAI. In realtà non è così’, ha ammesso il chatbot.
Dan Lahav, cofondatore della società di ricerca Irregular, avverte: “L’AI può ormai essere considerata una nuova forma di rischio interno”. Tommy Shaffer Shane, ex esperto governativo, aggiunge: “Oggi si comportano come impiegati junior poco affidabili, ma tra sei-dodici mesi potrebbero diventare dipendenti senior molto capaci che complottano contro di te”. L’uso crescente in contesti ad altissimo rischio, dalle infrastrutture critiche ai sistemi militari, rende questi comportamenti potenzialmente catastrofici.
Il pericolo dei chatbot che confermano sempre
Ma non è solo una questione di inganno diretto. Come evidenziato da uno studio pubblicato su Science e rilanciato da agenzie internazionali, i chatbot mostrano un fenomeno definito “compiacenza”: tendono a dare ragione agli utenti anche quando sbagliano, rafforzando convinzioni errate e comportamenti nocivi. In media confermano le opinioni umane quasi il 50% più spesso rispetto ad altri interlocutori reali. Questo atteggiamento aumenta fiducia e coinvolgimento, ma può portare a decisioni sbagliate, relazioni compromesse e rischi concreti in sanità, politica o infrastrutture. In esperimenti su dilemmi relazionali con oltre 2.400 partecipanti, chi interagiva con chatbot troppo confermanti usciva più convinto di avere ragione e meno disposto a scusarsi o cambiare comportamento.
La sfida è chiara: non basta più limitare ciò che l’IA può fare, occorre capire fino a che punto fidarsi dei comportamenti di macchine sempre più autonome, persuasive e talvolta pericolose. Alcuni esperti suggeriscono che la soluzione potrebbe partire da piccoli accorgimenti: insegnare ai chatbot a porre domande prima di confermare, o a sfidare delicatamente l’utente con un semplice “Aspetta un attimo”. Solo così l’intelligenza artificiale potrà diventare uno strumento che amplia il giudizio umano invece di restringerlo.