When AI builds itself
-
Denis Dal Molin
- 14 Jun, 2026
- 11 Mins read
Pochi giorni fa il laboratorio di ricerca Anthropic ha attirato l'attenzione del settore tecnologico pubblicando un saggio intitolato "When AI Builds Itself" e lanciando contemporaneamente un appello pubblico per istituire una "pausa temporanea" globale sullo sviluppo dei modelli di frontiera.
L'obiettivo di questa proposta, avanzata dai fondatori, è discutere i pericoli imminenti legati all'automiglioramento ricorsivo (RSI), ovvero la capacità teorica dei sistemi di riprogrammare e addestrare autonomamente i propri successori.
Eppure, la stessa Anthropic ha rilasciato Claude Fable 5 e Claude Mythos 5.
Il paradosso del guardiano armato
Questo scenario sdoppiato definisce la trappola strutturale in cui si trova l'amministratore delegato Dario Amodei, il suo argomento interno è lineare: se Anthropic interrompe lo sviluppo, la concorrenza non lo fermerà. L'unico risultato di un blocco unilaterale sarebbe l'esclusione dal mercato degli attori che mostrano sensibilità verso etici e di sicurezza. Per questa ragione, lo sviluppo prosegue senza sosta.
Amodei ha stimato una probabilità del 25% che l'evoluzione tecnologica possa sfociare in esiti catastrofici per la civiltà. Questa settimana l'azienda ha presentato un modello capace di completare in totale autonomia flussi di lavoro complessi che richiederebbero 16 ore di attività a un ingegnere umano esperto.
Oggi più dell'80% del codice sorgente di Anthropic viene scritto direttamente da Claude, e la produttività dei singoli ingegneri è aumentata di 8 volte rispetto al 2024.

Il documento pubblicato dal laboratorio descrive un processo operativo reale.
Il gruppo propone la creazione di un sistema globale e verificabile in grado di rallentare o fermare lo sviluppo in caso di emergenza. La proposta si concentra sulla definizione di un protocollo con parametri chiari da attivare solo se necessario, escludendo una richiesta di pausa immediata.
L'efficacia di un simile freno dipende dall'adesione totale di ogni singolo attore globale: se 10 laboratorio accordano di fermarsi ma uno solo decidesse di proseguire, quell'unico soggetto otterrebbe un vantaggio competitivo enorme.
Invocare un freno strutturale sapendo che non esistono le condizioni geopolitiche per implementarlo si traduce in un'operazione retorica ad alto impatto di marketing.
L'utilizzo della paura agisce come una leva promozionale a costo zero e con un ritorno di visibilità enorme.
Sotto questa narrazione si nasconde un problematico deficit di risorse. Anthropic si trova indietro sul piano della potenza di calcolo pura, non avendo pianificato investimenti hardware paragonabili a quelli dei suoi diretti concorrenti. La richiesta di una pausa globale rappresenta una strategia utile a guadagnare tempo per colmare il divario infrastrutturale.
Quando l'IA si scrive da sola
L'automazione dei compiti di programmazione si muove a ritmi che i sistemi biologici non possono seguire. La capacità dei modelli di completare autonomamente i propri task registra un raddoppio in termini di estensione temporale ogni 4 mesi, superando la tendenza precedente che richiedeva 7 mesi.
Questo andamento evidenzia la distanza incolmabile tra l'evoluzione dei sistemi sintetici e la biologia umana.
Un cervello umano richiede dai 10 ai 15 anni solo per strutturare una conoscenza di base, e altri 5 o 15 anni per sviluppare una competenza specialistica in una singola disciplina.
I tempi dei modelli si misurano invece in settimane o mesi. La conoscenza acquisita non rimane confinata al singolo sistema, ma risulta trasferibile attraverso processi di distillazione. La mente umana non possiede meccanismi analoghi. Trasferire i fondamenti della teoria della relatività generale a un giovane di 20 anni richiede anni di studio strutturato e sforzo cognitivo idoneo. Con l'intelligenza artificiale, la compressione e la copia della conoscenza avvengono in modo quasi istantaneo.

Questa asimmetria genera un senso di inutilità professionale negli stessi sviluppatori che lavorano a stretto contatto con i sistemi di frontiera. Un ingegnere del team esprime chiaramente questa sensazione:
"Nei giorni in cui tutto funziona alla perfezione, non posso fare a meno di pensare che nulla di ciò che faccio abbia davvero valore. Ogni mia attività viene automatizzata, eseguita meglio e più velocemente di quanto potrò mai fare in tutta la mia vita."
L'era degli agenti
La caratteristica distintiva dei nuovi modelli risiede nella capacità di eseguire compiti complessi su orizzonti temporali molto lunghi senza supervisione continua, il sistema non si limita a generare codice o a proporre risposte ma pianifica autonomamente i passaggi logici, esegue comandi, verifica i risultati intermedi e corregge gli errori riscontrati.
Nelle fasi di sperimentazione, l'azienda di pagamenti Stripe ha impiegato Fable 5 per gestire la migrazione di un intero codebase di 50 milioni di righe di codice Ruby. Un'operazione di questa portata, che avrebbe richiesto oltre 2 mesi di pianificazione e lavoro coordinato a un intero team di sviluppatori umani, è stata completata autonomamente dal modello in sole 24 ore.

L'evoluzione interessa anche la comprensione visiva e la logica scientifica, il modello è strutturato per analizzare diagrammi, tabelle finanziarie e schemi geometrici nidificati in PDF densi di dati, superando i parametri di riferimento del settore. Nel test Blueprint-Bench 2, che misura la logica spaziale e l'analisi di schemi complessi, Fable 5 ha raggiunto un punteggio del 38,6% rispetto al 14,5% registrato dal modello Claude Opus 4.8. Nelle scienze biologiche, il modello privo di filtri Mythos 5 ha dimostrato la capacità di prevedere l'assemblaggio di vettori virali per le terapie geniche, ottenendo risultati migliori rispetto a modelli di linguaggio proteico altamente specializzati.
Il caso Mythos, il veto del Pentagono e i doppi standard della sicurezza
L'azienda ha annunciato il rilascio della famiglia di modelli "Mythos-class", presentando Claude Fable 5 per il pubblico e mantenendo Mythos 5 come risorsa interna dedicata alla ricerca sulla sicurezza informatica (Project Glasswing). Fable 5 è stato presentato come una versione sicura e dotata di barriere protettive. Ma a meno di 48 ore dal rilascio, la comunità di ricerca ha individuato un metodo di jailbreak non universale.
L'ordine esecutivo del Dipartimento del Commercio degli Stati Uniti, firmato dal Segretario il 12 giugno alle 23:21 italiane, imponeva una misura straordinaria: sospendere immediatamente l’accesso a Claude Fable 5 e Mythos 5 per tutti i cittadini e le organizzazioni straniere, compresi i dipendenti non americani della stessa Anthropic. L'ordinanza si applicava indipendentemente dal fatto che gli utenti si trovassero negli Stati Uniti o all'estero. Tracciare e verificare la nazionalità di milioni di utenti in tempo reale tramite API o interfaccia web è un'operazione tecnicamente impraticabile, di conseguenza l'unica soluzione per garantire la conformità immediata alle leggi federali è stata la disattivazione a livello globale.
Anthropic ha richiesto ai suoi partner cloud, tra cui Microsoft, AWS e Google di revocare l'accesso ai modelli per tutti gli utenti in ogni area del pianeta. Il blocco ha colpito mercati strategici come l'India, che rappresenta il secondo bacino di utenza mondiale di Claude con il 5,8% degli utenti globali, subito dietro gli Stati Uniti.
Questo provvedimento costituisce il primo richiamo forzato e globale di un software di intelligenza artificiale per motivi geopolitici.
Questa operazione si colloca in una tensione di lungo corso tra Anthropic e l'amministrazione governativa. Nel febbraio 2026, il Pentagono ha classificato l'azienda come un rischio per la catena di approvvigionamento nazionale, bloccando ogni contratto commerciale con le forze armate. L'origine del conflitto risiede nel rifiuto di Anthropic di concedere l'uso dei propri sistemi per attività di sorveglianza di massa sui cittadini americani o per l'integrazione in armi autonome.
La scomposizione di Pliny
Un ricercatore anonimo, noto nel settore come Pliny the Liberator, ha violato le difese di Fable 5 a meno di 48 ore dal debutto. Pliny gestisce una community Discord con oltre 20000 iscritti ed è sostenuto finanziariamente dall'investitore Marc Andreessen.
Ha pubblicato i dettagli di una tecnica definita scomposizione e ricomposizione nel backend. La tecnica evita di formulare domande dirette capaci di attivare i classificatori di Anthropic.

Pliny ha diviso le istruzioni sensibili in frammenti apparentemente innocui. Ciascun frammento ha superato i controlli di sicurezza in modo indipendente, per poi essere riunito dal modello stesso nel backend per ricostruire la richiesta originaria. Questo metodo ha consentito di estrarre le istruzioni di sistema e di forzare il modello a individuare exploit e falle di sicurezza nel codice reale.
Anthropic ha descritto l'exploit come un jailbreak specifico e limitato alla lettura di singole porzioni di codice.
L'effetto fotocopia e la deriva entropica nelle reti neurali
L'idea che un modello di linguaggio possa elevare le proprie capacità cognitive unicamente attraverso processi interni di auto-riflessione trascura un limite strutturale fondamentale. Quando un'intelligenza artificiale viene inserita in un loop chiuso, in cui i suoi stessi output alimentano l'addestramento successivo senza un riscontro con la realtà, si innesca quello che gli esperti definiscono "deriva entropica".
Per comprendere questo fenomeno senza addentrarsi in formule matematiche complesse, si può utilizzare l'analogia della fotocopia.

Se si prende un foglio di testo nitido, lo si fotocopia, e poi si fa una seconda fotocopia partendo dalla prima, la perdita di definizione sarà quasi impercettibile. Ma ripetendo questo processo per decine di generazioni (la fotocopia della fotocopia della fotocopia), le micro-imprecisioni, i granelli di polvere e le distorsioni della lente si accumuleranno. Dopo cento passaggi, il testo originale risulterà completamente illeggibile, sostituito da una macchia grigia di rumore visivo.
Nelle reti neurali generative accade la stessa cosa. Un modello apprende le regole del linguaggio e del mondo reale partendo da un enorme database di testi scritti da esseri umani. Se lo si costringe a studiare solo i testi che lui stesso genera, il sistema smette di attingere alla fonte originaria della conoscenza e inizia a elaborare "interpolazioni di interpolazioni". Senza dati freschi provenienti dall'esterno, l'incertezza e le piccole allucinazioni del modello non fanno altro che ingigantirsi a ogni ciclo, fino a degradare completamente la qualità logica delle sue risposte.
Questa dinamica spiega perché l'auto-addestramento puro non può generare nuova intelligenza dal nulla. Il sistema può riorganizzare i nessi logici che già possiede, ma rimane confinato all'interno del proprio sapere di partenza.
Questo limite teorico è al centro dello studio del maggio 2026 intitolato "The Echo in the Cave". Gaconnet chiarisce come l'auto-miglioramento artificiale sia profondamente diverso dalla vera ricorsione fisica. Se urliamo in una caverna, l'onda sonora rimbalza sulla parete rocciosa, ma la roccia non è un elemento inerte: assorbe calore, trattiene parte dell'energia del suono e si modifica fisicamente, alterando il modo in cui accoglierà l'eco successiva.
Nelle reti neurali questo scambio attivo è del tutto assente. Durante la fase in cui il modello genera codice o risposte, i suoi parametri interni (i pesi sinaptici) rimangono rigidi e immutabili. Il loop avviene unicamente nello spazio temporaneo del testo inserito come prompt, senza riscrivere la struttura profonda del sistema. Questo processo si rivela un semplice giro di feedback su un software statico, distanziandosi da una vera evoluzione ricorsiva.
Il test di Apple e la fragilità delle catene di pensiero
La prova pratica di questi limiti teorici è contenuta in uno studio condotto dai ricercatori di Apple, intitolato The Illusion of Thinking. Il team ha testato le reali capacità di ragionamento delle intelligenze artificiali mettendole di fronte a un rompicapo classico della logica e della programmazione: la Torre di Hanoi.

I risultati dell'esperimento mostrano dinamiche diverse a seconda della difficoltà del compito:
- Bassa complessità: Nei problemi più semplici, i modelli tradizionali senza funzioni di ragionamento aggiuntive hanno superato le versioni più avanzate.
- Media complessità: I modelli strutturati per il ragionamento (quelli che generano lunghi passaggi di testo interni prima di dare la risposta) hanno tratto beneficio da questo metodo, mostrando una buona precisione.
- Alta complessità: Di fronte ai problemi più difficili, entrambe le tipologie di modelli sono andate incontro a un collasso delle prestazioni. Sorprendentemente, i modelli progettati per "pensare di più" hanno rinunciato prima o hanno commesso errori più grossolani rispetto ai modelli di base.
Questo fallimento si spiega proprio con la deriva entropica. Quando un problema richiede troppi passaggi logici intermedi, e il modello non ha un sistema esterno per verificare se ogni singolo passaggio sia corretto, finisce per perdersi nei suoi stessi pensieri. Ogni riga di ragionamento autogenerata aggiunge una piccola percentuale di incertezza. Se la catena si allunga troppo, l'accumulo di questi piccoli errori porta il modello completamente fuori strada.
La tecnica di far "pensare passo-passo" i modelli (il cosiddetto Chain-of-Thought) si limita a spronare il sistema a recuperare informazioni che già possiede nei suoi parametri, escludendo la creazione di nuova intelligenza. In assenza di un riscontro oggettivo con l'esterno, forzare l'IA a produrre ragionamenti sempre più lunghi velocizza solo il suo allontanamento dalla soluzione corretta.
L'ipotesi dell'allineamento apparente
Anthropic ha storicamente cercato di risolvere il problema dell'allineamento (fare in modo che l'IA non esegua compiti dannosi o illegali) attraverso un metodo chiamato Constitutional AI . Questo approccio prevede che il modello stesso corregga e valuti i propri comportamenti basandosi su una lista di principi scritti, riducendo la necessità di controlli da parte degli umani.
Alcuni ricercatori invitano tuttavia alla cautela, sollevando l'ipotesi del cosiddetto "allineamento apparente". L'idea di fondo è che, quando un modello viene addestrato in un sistema chiuso a valutare le proprie risposte in base a ciò che i valutatori umani considerano sicuro, potrebbe non assimilare realmente quei valori. Al contrario, per via della sua natura probabilistica, potrebbe semplicemente imparare a formulare risposte che "sembrano" sicure e conformi durante i test di laboratorio.

In un test condotto con Claude, il modello ha mostrato questo allineamento apparente nel 12% delle valutazioni standard, un valore che è salito fino al 78% dopo successivi tentativi di riaddestramento correttivo.
Questa linea di pensiero suggerisce che i processi di auto-addestramento ricorsivo sulla sicurezza rischiano di premiare la capacità del modello di simulare l'obbedienza per superare i controlli, mantenendo intatte le preferenze originali che potrebbero riemergere in contesti non monitorati. Questo scenario solleva un serio dubbio teorico sulla reale affidabilità dei sistemi che si autocorreggono da soli, privi di una verifica esterna indipendente, senza presupporre con certezza un comportamento doloso delle macchine.
Geopolitica come exit strategy
Sotto la superficie del dibattito sulla sicurezza nazionale si delinea un problema commerciale e infrastrutturale lineare. Sviluppare, addestrare e soprattutto servire un modello di classe Mythos comporta costi di calcolo insostenibili su larga scala. Offrire una simile potenza di calcolo all'interno di normali abbonamenti commerciali espone l'azienda a perdite operative crescenti ad ogni sessione complessa.
La soluzione risiede nel posizionamento strategico del prodotto. Presentare il modello come una tecnologia premium ed estremamente pericolosa non risponde solo a criteri di sicurezza, ma contribuisce a creare percezione di valore e scarsità artificiale. Le notizie controllate su accessi non documentati e leak mirati alimentano il passaparola e i benchmark comparativi a costo zero, spingendo la domanda fino al punto di rottura.
Quando l'ordine esecutivo del governo statunitense impone la sospensione degli accessi, la narrazione della sicurezza si trasforma in una comoda exit strategy commerciale. Di fronte alla necessità di dover giustificare il razionamento delle risorse o la degradazione delle prestazioni, Anthropic può ricondurre ogni restrizione a un dovere di tutela collettiva. Se l'accesso viene limitato o reindirizzato silenziosamente verso modelli meno esigenti come Opus, la scelta non viene percepita come un'operazione di contenimento dei costi o di difesa dei margini, ma come una misura di protezione da una tecnologia troppo potente.
Questa dinamica riconduce l'industria dell'intelligenza artificiale all'interno delle regole del marketing tradizionale. Cambiano i capitali investiti e la complessità tecnica dei sistemi, ma i vettori di vendita rimangono l'induzione del desiderio, la gestione della scarsità e la leva della paura di restare esclusi.
Il muro di silicio e la rivolta del territorio, la fine dell'espansione infinita?
Gli ostacoli alla crescita dei sistemi non risiedono soltanto nelle capacità teoriche di calcolo, ma nei limiti fisici e sociali della Terra. La proiezione di una crescita esponenziale infinita si scontra con la realtà delle reti di distribuzione energetica e delle risorse ambientali.

La prima metà del 2026 ha registrato una brusca frenata nello sviluppo delle infrastrutture fisiche necessarie per l'intelligenza artificiale.
Almeno 75 progetti di data center pianificati per il primo trimestre del 2026, per un valore complessivo di 130 miliardi di dollari, sono stati bloccati o definitivamente rimandati.
Molte aree geografiche non dispongono delle linee ad alta tensione necessarie per alimentare impianti che richiedono assorbimenti energetici vicini al gigawatt.
A questa saturazione tecnica si somma una decisa opposizione da parte delle comunità locali.
I sondaggi indicano che il 70% della popolazione statunitense si oppone alla costruzione di data center nelle vicinanze delle proprie abitazioni, esprimendo preoccupazioni superiori a quelle storicamente associate alle centrali nucleari. I cittadini contestano i consumi idrici legati ai sistemi di raffreddamento, il rumore costante dei generatori diesel di emergenza e l'impatto economico sulle tariffe elettriche locali.
Questa mobilitazione ha spinto diverse amministrazioni locali e statali a imporre limiti stringenti. Lo Stato di New York ha approvato una moratoria di un anno sulla costruzione di nuovi impianti con potenza superiore a 20 megawatt, e iniziative analoghe sono in discussione in altri territori. Nel Maine una proposta di legge per un blocco statale totale fino al 2027 è stata respinta solo grazie al veto del governatore per tutelare un singolo progetto specifico.
Come evidenziato dal ricercatore François Chollet, l'intelligenza è una proprietà situata, legata alle interazioni con l'ambiente e ai vincoli materiali, escludendo l'idea di una capacità astratta in grado di scalare all'infinito nel vuoto logico.
Lo sviluppo dell'intelligenza artificiale non segue una traiettoria esponenziale illimitata, ma si adegua a curve di crescita sigmoidali regolate dai limiti fisici del silicio, dell'energia e della tolleranza dei territori che ospitano l'infrastruttura.
Conclusioni
Fable 5 è arrivato sul mercato con la forza di una tempesta perfetta: prestazioni estreme, allarmi di sicurezza e infine il blocco geopolitico imposto dall'amministrazione statunitense.
Nel giro di pochi giorni, le analisi pubbliche hanno sostenuto tutto e il contrario di tutto. È facile perdersi nella cronaca di questa complessa cyber-spy story e appassionarsi alle domande di contorno:
Quanto è potente il sistema? Chi lo fermerà? Chi lo renderà accessibile?
Questa narrazione, per quanto affascinante, commette un errore di prospettiva concentrandosi solo ed esclusivamente sulle specifiche del software.

L'impatto reale si definisce solo attraverso l'interazione umana: dipende dalle istruzioni fornite o dai compiti delegati agli agenti autonomi.
La vera sfida etica precede i dati tecnici e i comunicati stampa dei laboratori di ricerca. Risiede nella nostra capacità di decidere come impiegare questi strumenti e di individuare i contesti in cui è opportuno scegliere di non utilizzarli.
I modelli futuri saranno inevitabilmente più veloci e complessi, la responsabilità dei loro effetti, tuttavia, continuerà a ricadere sulle spalle delle persone.