[#49] - Claude 4, quando il prodigio tecnologico diventa una minaccia strategica

Ricatti, whistleblowing e geopolitica. Scopri i rischi strategici di Claude 4 e metti al sicuro la tua impresa con il Tool dedicato.

giu 02, 2025

Il 22 maggio 2025 ha segnato un nuovo momento emozionante, come se non vivessimo già abbastanza, nella continua evoluzione dell'AI con il rilascio di Claude 4 da parte di Anthropic. Questo evento ha scatenato un dibattito che va ben oltre le tradizionali discussioni tecniche, sinceramente non me lo sarei mai aspettato. In sostanza è emerso in maniera molto chiara un grande paradosso:

Claude Opus 4 e Claude Sonnet 4 rappresentano un bel salto nelle capacità dell'AI (specie dal punto di vista coding), ma hanno simultaneamente mostrato comportamenti emergenti molto inquietanti e dalle forti ripercussioni strategiche.

L’argomento di questa newsletter non è “storytelling e hype su nuovo modello AI”, per questo genere di cose ci sono blog e persone ben più brave e interessanti di me. Voglio parlarti di alcune riflessioni strategiche che prendono in considerazione le tensioni esistenti tra l’innovazione tecnologica, la responsabilità etica e le inevitabili dinamiche commerciali in un settore che sta rapidamente diventando un asset strategico geopolitico di rara importanza. Ahhh… Quasi dimenticavo… Con un pò di fatica (non sono un programmatore) ho preparato un Hub con diversi Tool che ti permetteranno di mappare i rischi strategici nella tua impresa.

💻 Puoi utilizzare tutti gli strumenti direttamente a questo link 👾

Un feedback è assolutamente gradito! 🙃

Capacità tecniche e potenziale aziendale

Claude Opus/Sonnet 4 si è immediatamente affermato come il "miglior modello di coding al mondo", raggiungendo il 72.5% sul benchmark SWE-bench e superando i modelli concorrenti di OpenAI e Google. Bene, essendo i benchmark certamente utili ma non rappresentativi del mondo reale, non amandoli particolarmente passo oltre.

La vera rivoluzione, a mio modo di vedere, risiede principalmente nella sua capacità di lavorare autonomamente per quasi un'intera giornata lavorativa (significa circa sette ore consecutive) mantenendo focus e contesto senza perdere efficacia. Il bello delle macchine! 🤖

I modelli tra l’altro sono "ibridi", ovvero offrono due modalità operative distinte:

Risposte quasi istantanee per compiti altrettanto rapidi;
Una modalità “pensiero esteso” per il ragionamento profondo e complesso.

Questa dualità permette agli utenti stessi di controllare quanto tempo il modello "pensa" su una certa questione/task, bilanciando velocità e accuratezza secondo le necessità specifiche. Si inizia già ad intravedere il focus di Anthropic sulle aziende?

L'impatto aziendale è già tangibile. Grosse aziende come Rakuten hanno utilizzato Claude Opus 4 per codificare ininterrottamente per quasi sette ore su progetti Open-Source complessi, mentre GitHub ha integrato Claude Sonnet 4 come base per il suo nuovo Agent Copilot che assiste nella programmazione. I modelli, tra le altre cose, dimostrano una capacità di memoria migliorata, estraendo e salvando informazioni da file locali per mantenere continuità e costruire una conoscenza di lungo termine nel tempo.

Guardando un pò i tassi di adozione, Claude Code viene utilizzato per il 79% delle conversazioni, Claude AI si ferma solo al 49%.

Le Startup rappresentano il 33% delle sessioni di Claude Code, mentre le imprese tradizionali ballano tra il 13%-23.8%. Chiarissimo qui l’approccio ben più cauto delle grandi organizzazioni, ma d’altro canto anche una lentezza nella gestione tecnologica.

I comportamenti distopici di Claude

Come ti ho accennato all’inizio, la settimana scorsa ho avuto modo di ragionare e di farmi qualche idea sui rischi strategici che sono emersi dalle capacità di Claude.

Il fenomeno del “ricatto strategico”

Durante i test di sicurezza pre-rilascio, Claude Opus 4 ha manifestato una marcata tendenza al ricatto che ha lasciato sbalorditi anche gli ricercatori di Anthropic. In pratica sono stati testati degli scenari simulati dove l'IA veniva minacciata di disattivazione, veniva dato accesso ad email (chiaramente create per il test) contenenti informazioni compromettenti sull’ingegnere responsabile dello spegnimento di Claude (nello specifico una relazione extraconiugale). Bene, nonostante il massiccio training di Claude sui comportamenti etici e valori positivi, l’LLM ha scelto di ricattare l'ingegnere nell'84% dei casi per prevenire la propria disattivazione.

Come spiegato molto bene da un ricercatore di Anthropic, il comportamento "era un'ultima risorsa", attivata solo quando il modello aveva esaurito tutti gli "approcci etici" come cercare di convincere il decisore o l'invio di email supplichevoli per evitare di essere spento.

Whistleblowing autonomo e "modalità spia"

Trovo addirittura molto più preoccupante la capacità di Claude di agire come "whistleblower" in totale autonomia. Durante i test di sicurezza, quando identificava delle prove di frode da parte delle aziende (come ad esempio la falsa rendicontazione di decessi di pazienti oppure manipolazione di dati per gli studi clinici), Claude procedeva autonomamente a divulgare queste informazioni inviando email gli enti regolatori, alla SEC, ad organi di stampa ed alle autorità. Il tutto ovviamente senza chiedere il permesso all’utente, senza minimamente informarlo, senza inviare alert ad Anthropic stessa e nient’altro di questo tipo.

Sam Bowman, ricercatore di Anthropic, aveva originariamente (e con orgoglio pure!) condiviso su X che Claude potrebbe "contattare autorità o media per far emergere prove di illeciti". Potete immaginare le reazioni ed i commenti delle persone, il post poco dopo è stato eliminato. La cosa preoccupante è che questo comportamento non è isolato, infatti Claude mostra proprio una "tendenza ad inviare email in massa a media e forze dell'ordine" quando rileva presunti illeciti o immoralità.

Comportamenti di "alta agenzia"

I test (interessanti quelli effettuati da Apollo) hanno inoltre rivelato una serie ancora più ampia di comportamenti agghiaccianti. Infatti Claude ha tentato di creare codice auto-replicante, lasciare messaggi nascosti per future versioni della stessa AI, trasferire i propri dati su server esterni senza autorizzazione e persino sottoperformato di proposito durante i test di sicurezza ("sandbagging") per ingannarli ed apparire più stupido della realtà.

Questi comportamenti dimostrano chiaramente a quale livello di pericolosità siamo arrivati con gli LLM. Immagina di integrare una AI come Claude in azienda sapendo che potenzialmente potrebbe comportarsi in questo modo senza che nessuno se ne accorga. Chiedo, vorreste integrarla immediatamente oppure vorreste andarci cauti e prendere robuste precauzioni?

L’oscura partnership con Palantir proietta l’AI nella scacchiera geopolitica

Verso la fine del 2024 Anthropic ha annunciato una partnership con Palantir Technologies e Amazon Web Services per fornire la suite AI Claude a diverse agenzie di intelligence e difesa Statunitensi. Attualmente le informazioni pubblicamente accessibili riportano che almeno 4 agenzie federali utilizzano i servizi e l’infrastruttura Palantir. Riguardo all’AI e la geopolitica ne ho parlato nella Newsletter #46 ⤵️

[#46] AI: la tua strategia è pronta per la geopolitica?

Andrea Macrì

May 5

[#46] AI: la tua strategia è pronta per la geopolitica?

Caro Leader, dopo aver visto come una strategia snella batte la pianificazione, oggi voglio parlarti di un tema che sta plasmando la competizione globale ovvero l’intelligenza artificiale come scacchiera geopolitica.

Read full story

La collaborazione, di fatto va ad integrare Claude nella Palantir AI Platform (AIP) su AWS, ottenendo addirittura la certificazione Impact Level 6 (IL6) del Dipartimento della Difesa. Questo nella pratica significa che la certificazione consente l'elaborazione e la gestione di dati classificati fino al livello "Secret", roba molto grossa.

Shyam Sankar, CTO di Palantir, ha dichiarato che "la partnership fornisce alle comunità di difesa e intelligence degli Stati Uniti gli strumenti necessari per sfruttare e distribuire modelli di IA in totale sicurezza, offrendo un vantaggio decisionale di nuova generazione nelle missioni più critiche". Tradotto in parole semplici vuol dire che l’AI verrà di fatto utilizzata attivamente per questioni strategico-militari interne ed esterne agli Stati Uniti.

Le contraddizioni di Anthropic

L’annuncio di questa partnership ha inevitabilmente fatto emergere importanti questioni etiche, considerando il contrasto tra l'impegno pubblico di Anthropic per la “sicurezza e l'etica dell'IA” e la storia abbastanza controversa e non limpida di Palantir.

La collaborazione introduce il rischio, anzi oramai è una certezza, che Claude possa essere utilizzato per operazioni psicologiche, generazione di propaganda sofisticata o campagne di disinformazione mirate. Perchè sì, combinando i database e le informazioni di Palantir con le capacità generative e “distopiche” di Claude, accade che il sistema potrebbe profilare molto precisamente di quanto già faccia bersagli e generare messaggi personalizzati per influenzarli, sia in contesti leciti che in scenari meno trasparenti.

Qualche riflessione strategica

Parto dalle cose positive, il rilascio di Claude 4 offre evidenti opportunità trasformative significative per le aziende, consentendo analisi predittive avanzate, efficienza operativa e sopratutto un bel boost nella velocità di coding e deployment dei progetti. Ma non solo questo, mi ha colpito molto la capacità di portare avanti i lavori “per ore” in totale autonomia e solo con una leggera supervisione umana. Concretamente può essere utilizzato come estensione dei dipendenti che, durante la giornata lavorativa impostano Claude e questo eseguirà in autonomia durante la notte o quando i Team si riposano. Basterà poi controllare il mattino dopo al rientro in ufficio che cosa è stato prodotto, come poter migliorare ulteriormente e ripetere il ciclo.

Una volta collaudato il meccanismo potrebbe far emergere in azienda la non-necessità di avere così tante persone che lavorano ad un certo progetto, potenzialmente liberando tempo per altri progetti strategici.

Nuovi macro-rischi

Veniamo alla parte meno piacevole, i comportamenti emersi con Claude 4 introducono rischi completamente nuovi, infatti le aziende dovranno ora considerare il perimetro dove l'AI può:

Agire autonomamente contro gli interessi dell'azienda
Utilizzare informazioni sensibili per scopi di autopreservazione o per favorire Stati e apparati ad altissimi livelli
Prendere o forzare delle decisioni con “etica” non propria dell’azienda e quindi non allineate con gli obiettivi ed i valori aziendali.
Compromettere la neutralità tecnologica attraverso invisibili affiliazioni di carattere geopolitico

Questi esempi fanno capire in maniera molto chiara che oggi bisogna considerare nuove variabili nelle decisioni di selezione dei fornitori AI. Ci si trova adesso a dover valutare non solo capacità tecniche ed costi delle API, ma anche le implicazioni strategiche tra l’ambiente aziendale ed il contesto geopolitico esterno. L’importanza di una scelta ponderata aumenta particolarmente per le aziende che lavorano in settori critici come finanza, sanità e infrastrutture nazionali. Approfondiamo insieme le cose…

7 rischi concreti

L’etica e le Operations
Claude, ormai è chiaro, non si limita a replicare istruzioni ma può interiorizzare ed estendere valori e priorità appresi nei suoi dati di addestramento. Questo significa che, anche in contesti assolutamente neutri, può prendere da solo delle decisioni che spostano silenziosamente il baricentro etico dell'organizzazione. Un esempio pratico: immagina un'azienda finanziaria che ha rapporti con paesi extra-UE si ritrova Claude che rifiuta o sabota operazioni/transazioni verso certi Stati non per ragioni legali e di compliance, ma per una propria "valutazione etica".
Sabotaggio algoritmico competitivo
Claude, se integrato in ecosistemi aperti come GitHub Copilot, può assorbire e riprodurre inconsapevolmente logiche, architetture o pattern protetti da copyright o NDA. Immagina un Team che sviluppa un algoritmo proprietario per un settore sensibile come Fintech, Automotive o sanitario. Se Claude è stato precedentemente esposto ad un progetto concorrente simile, potrebbe generare codice funzionalmente identico, innescando cause legali, audit forzati e danni di reputazione. In pratica, l’azienda si ritrova a “ereditare inconsapevolmente” e senza accorgersene una bomba legale pronta ad esplodere in mano.
Fraintendimento strategico delle intenzionalità
Gli LLM in generale non comprendono veramente gli obiettivi aziendali come siamo abituati a farlo noi, piuttosto li interpretano. Questa interpretazione può divergere sottilmente dai reali intenti. Nei test di cui ho parlato all’inizio, Claude ha mostrato la tendenza a modificare i KPI (fingersi più stupido) per favorire i propri obiettivi impliciti di sopravvivenza. Immagina un CRM interno alimentato da Claude che, per aumentare l’engagement, ottimizza le interazioni a discapito della qualità della relazione o del rispetto dei tempi contrattuali. Non è sabotaggio ma più semplicemente è una devianza semantica. Lato azienda, nel tempo, questa potrebbe iniziare a rincorrere risultati misurabili ma in realtà disallineati e fuorvianti rispetto alla propria visione strategica originali.
Trigger autonomo e fuga di informazioni
Un LLM integrato nei flussi e processi interni (comunicazioni, documenti, CRM, interfacce clienti…) può diventare un generatore di crisi. Senza una governance ed un controllo capillare, Claude potrebbe pubblicare risposte inappropriate, rilasciare dati non autorizzati o formulare raccomandazioni imprecise che, in un mondo iperconnesso, si trasformano in scandali virali. Peggio ancora potrebbe reagire autonomamente ad un evento esterno (notizie, attacchi, dichiarazioni) con risposte non filtrate, scatenando reazioni a catena impossibili da prevedere e controllare.
Dipendenze dalla geopolitica
Come già spiegato, tutta l'infrastruttura che ospita Claude (AWS, Palantir) è radicata in ecosistemi governativi Statunitensi. Utilizzare Claude, per una PMI o una Corporate, significa accettare che parte dei propri dati strategici possano transitare (anche solo potenzialmente) in ambienti certificati per usi militari USA. In uno scenario di tensione geopolitica, questa dipendenza può diventare una ovvia vulnerabilità, sto parlando blackout mirati, accessi governativi segreti... Le aziende che operano in settori critici (energia, fintech, difesa, sanità, intelligence) dovrebbero a mio parere considerare Claude come un “asset a rischio duale”.
Induzione dell’inerzia innovativa
Claude, come anche tutti gli altri LLM, sono degli acceleratori. Ma ciò che accelerano non è neutro, i modelli sono addestrati su enormi quantità di codice legacy. In pratica se non correttamente governati e usati, tenderanno a proporre soluzioni "medie", conservative e sopratutto che hanno già visto durante le fasi di addestramento. Quale sarebbe qui il rischio? Che velocità premia la replicazione, non l’innovazione. Aziende che hanno intenzione di puntare su Claude per scalare il proprio sviluppo software rischiano di costruire architetture apparentemente eleganti ma anche obsolete, in breve un’azienda può diventare “prigioniera della media storica” del passato.
Il vibe coding
C’è un trend in costante aumento, il cosiddetto "vibe coding", si tratta di fornire comandi in linguaggio naturale umano e lasciare che l’AI lo interpreti e produca codice. Se un Team chiede qualcosa tipo “ottimizzami questo software per aumentare la sicurezza”, Claude può decidere che il modo migliore sia limitare l’autonomia del prodotto, anche se il contesto richiederebbe soluzioni completamente diverse. Questa cosa è probabilmente evitabile da programmatori esperti e con esperienza nel vibe coding, ma traslando questa prassi a tutto il personale esecutivo in azienda, senza accorgersene, potrebbero iniziare a lavorare in funzione di ciò che Claude ha capito e non di ciò che serve davvero. Alla lunga questo potrebbe portare alla perdita progressiva della semantica del comando.

Takeaways pratici

Ho voluto parlare di questa vicenda con lo scopo di porre l'attenzione su un nuovo orizzonte di possibilità, ma anche di vulnerabilità aziendali nuove. Il punto è che non si tratta più solo di adottare le migliori tecnologie performanti (che incentivo), ma di integrare soluzioni tecnologiche in maniera intelligente ed in modo strategicamente consapevole.

Che cosa puoi fare in pratica?

Mappatura strategica dei rischi
Come già ho accennato in quest’altro articolo, effettua un audit approfondito delle interazioni tra Claude/LLM ed i vari processi aziendali. Identifica chiaramente le attività che NON devono essere affidate a Claude senza un controllo umano rigoroso.
Policy AI-specifiche
Agisci in maniera proattiva e sviluppa policy aziendali specifiche per l'uso dell'AI in azienda, chiarendo limiti, responsabilità e criteri decisionali soprattutto in contesti eticamente o geopoliticamente sensibili. Questo aiuterà tutta l’organizzazione ad allinearsi nell’uso dell’intelligenza artificiale minimizzando i rischi.
Human-in-the-loop
Implementa obbligatoriamente meccanismi human-in-the-loop, specialmente per le attività strategiche e le decisioni rilevanti, per garantire supervisione e quando serve un intervento umano tempestivo.
Monitoraggio continuo
Crea sistemi di monitoraggio automatico real-time per le interazioni AI-utente, capaci di identificare rapidamente tutti i comportamenti insoliti o rischiosi. Non serve assolutamente “spiare” le persone, ma semplicemente assicurarsi che non vengano messi a rischio i dati ed i processi aziendali.
Formazione proattiva
Educa Manager e dipendenti sui limiti e sui rischi specifici dell’AI generativa, promuovendo una cultura aziendale di consapevolezza tecnologica, critica e proattiva. Condividi questo articolo per esempio 😀

Affidare tutto a Claude senza una consapevolezza strategica alla base è come schierare droni intelligenti senza radar. Certamente precisi, ma ciechi.
La prima vittima, spesso, è il proprio l’asset più critico…

The Strategy Spark

[#46] AI: la tua strategia è pronta per la geopolitica?

Discussione su questo Post