MIRA MURATI: L'EX DIRETTRICE TECNICA DI OPENAI HA UN NUOVO OBIETTIVO

Star Consulting
15 set
Tempo di lettura: 4 min

Figura centrale dell’ultimo quinquennio dell’AI, Mira Murati ha attraversato i passaggi chiave dell’ecosistema—da Tesla a Leap Motion, fino alla guida tecnica di OpenAI—prima di fondare Thinking Machines Lab, laboratorio che ha rimesso al centro un tema spesso eluso: la riproducibilità dell’inferenza nei modelli linguistici.

La sua tesi è netta: senza prevedibilità non c’è fiducia industriale, e senza fiducia l’IA resta un prototipo eterno.

Negli ultimi giorni, il suo nuovo team ha rilanciato il dibattito con un lavoro che mira a “sconfiggere” il non-determinismo nelle LLM, proponendo correttivi ingegneristici più che ideologici.

Nata a Valona nel 1988, formazione internazionale tra Pearson College UWC, Colby College e Dartmouth (Thayer School of Engineering), Murati è cresciuta professionalmente in contesti dove hardware, software e prodotto si toccano.

In Tesla lavora sul programma Model X; in Leap Motion assume responsabilità su prodotto e ingegneria in un’azienda pioniera del tracciamento mano-dito; nel 2018 approda a OpenAI, dove diventa rapidamente uno dei volti tecnici di riferimento.

Nel novembre 2023 guida per alcuni giorni la fase di transizione come CEO ad interim dopo l’uscita di Sam Altman, prima del suo ritorno; un passaggio che ne certifica il peso interno e la credibilità presso partner e mercato.

Da CTO, Murati accompagna l’esplosione pubblica dei sistemi generativi—da ChatGPT a DALL·E, fino alle piattaforme video e di code generation—con una narrativa sempre doppia: ambizione di risultato e responsabilità d’uso.

Nel 2024 riceve da Dartmouth un Doctor of Science honoris causa, riconoscimento che sottolinea insieme l’impatto tecnologico e l’attenzione ai temi di sicurezza e governance.

Nello stesso anno lascia OpenAI per “proseguire una propria esplorazione”, preludio alla nuova iniziativa imprenditoriale.

Thinking Machines Lab prende forma tra fine 2024 e inizio 2025, con l’ambizione di costruire sistemi più consistenti, auditabili e allineati alle esigenze enterprise.

Secondo ricostruzioni di stampa, la startup ha attratto profili di primo piano e punta a una raccolta risorse senza precedenti per accelerare ricerca e prodotto—segnale che la questione dell’affidabilità è ormai un driver strategico e non solo un requisito “non funzionale”.

Il primo output pubblico del laboratorio—“Defeating Nondeterminism in LLM Inference”—non indulge a proclami: entra nei dettagli del perché due inferenze identiche possano divergere.

La diagnosi individua, tra le cause principali, l’assenza di batch invariance in alcuni kernel e le interazioni tra quantizzazione, approssimazioni floating-point e scheduling parallelo; fattori che, sommati, minano la ripetibilità anche a seed fisso e temperature conservative.

Il messaggio è pragmatico: molto del “caso” osservato non è metafisica dell’IA, ma ingegneria del runtime.

Correggendo quei punti, si riduce la varianza e si restituisce stesso input → stesso output in contesti produttivi.

La portata è meno accademica di quanto sembri.

Immagina un assistente che deve completare la frase:“Domani a che ora aprite?”

Esecuzione A — prompt da solo (batch=1)

Il modello calcola le probabilità dei prossimi token. Due candidati sono molto vicini:
- “Apriamo” = 0,3500
- “L’apertura” = 0,3499
Vince per un soffio “Apriamo…”, e tutta la frase si sviluppa in quella direzione: “Apriamo alle 9:00”.

Esecuzione B — stesso prompt, ma in batch con altri 7

Per efficienza la GPU elabora 8 richieste insieme. L’ordine delle somme interne e alcune micro-scelte del kernel (come “spezzare” i calcoli su più thread) cambiano di pochissimo i numeri a causa dell’aritmetica floating-point (le somme in virgola mobile non sono perfettamente associative).
Quelle briciole numeriche spostano l’ago:
- “Apriamo” = 0,3499
- “L’apertura” = 0,3501
Stavolta vince “L’apertura…”, e la frase prende un’altra piega: “L’apertura è alle 9:00”.Stessa domanda, stesso seed, stessa temperatura: ma il primo token è diverso. Essendo un modello autoregressivo (sceglie un token alla volta), cambiare il primo mattone cambia tutta la costruzione successiva.

Perché succede questo?

Batch invariance mancante: quando metti più richieste insieme, la GPU riorganizza i calcoli. Se le operazioni non sono progettate per dare lo stesso risultato indipendentemente dal batch, l’ordine diverso di somme e moltiplicazioni introduce micro-differenze.
Floating-point: sommare numeri molto piccoli in ordini diversi produce risultati leggermente diversi (è normale in matematica numerica). Se due parole sono “testa a testa”, basta uno 0,0002 per invertire il podio.
Quantizzazione (es. INT8): per correre più veloce si “arrotondano” pesi e attivazioni. A volte le scale di quantizzazione dipendono dal batch; piccole differenze di arrotondamento → piccole differenze nelle probabilità.
Scheduling parallelo: più thread sommano pezzi di vettori enormi; cambiare l’ordine di riduzione (chi somma prima con chi) cambia un bit qui e là → può bastare.

In sanità, manifattura, finanza regolata, l’adozione di LLM si gioca su SLA verificabili, log di audit densi, test di regressione ripetibili.

Qui l’approccio “engineering-first” di Murati è una proposta di metodo: spezzare l’idea fatalista di un’IA inevitabilmente capricciosa, introducendo garanzie stratificate—dai kernel numerici alla pipeline di orchestrazione—per confinare la casualità dove ha senso (esplorazione) e limitarla dove è un rischio (produzione).

È un compromesso: troppo determinismo impoverisce la diversità generativa; troppo poco rende ingestibili controllo qualità e certificazioni.

Il punto è calibrare.

Sul piano culturale, la traiettoria di Murati resta coerente con interventi pubblici precedenti: IA più capace = IA più sicura, se progettata con vincoli e accountability.

Non è ottimismo ingenuo, ma fiducia nel fatto che architetture migliori e processi rigorosi possano allargare—non restringere—lo spazio dell’innovazione.

La sua riflessione del 2022 su linguaggio, creatività e “autorialità collettiva” anticipava già una sensibilità per i trade-off tra potenza e responsabilità che oggi trovano declinazione operativa.

Resta, naturalmente, un cantiere aperto.

Anche i sostenitori del determinismo riconoscono i limiti di una garanzia “assoluta” in ambienti distribuiti, con hardware eterogeneo e ottimizzazioni aggressive.

La scommessa (questa sì) è che ridurre il non-determinismo—pur senza azzerarlo—basti a stabilizzare benchmark, semplificare il QA e fornire basi solide per la regolazione.

Se Thinking Machines riuscirà a trasformare una tesi tecnica in vantaggio competitivo ripetibile, Murati avrà imposto un nuovo standard di mercato: non solo modelli più performanti, ma sistemi più credibili.

In controluce, il profilo della fondatrice: esperienza lungo tutta la filiera—hardware, interazione uomo-macchina, ricerca applicata—capacità di guidare team in fasi ad alta visibilità e un’attenzione rara alle implicazioni organizzative dell’IA.

È questa miscela a spiegare perché il progetto sul determinismo interessi investitori e aziende: più che una “crociata”, è un programma industriale.

Se l’AI generativa sta entrando nell’età delle garanzie, Murati prova a scriverne le regole d’ingaggio.

E a dimostrare che, in questa fase, la vera innovazione non è solo “cosa” genera un modello, ma quanto precisamente sappiamo prevederlo, replicarlo, controllarlo.

ARGOMENTI

MIRA MURATI: L'EX DIRETTRICE TECNICA DI OPENAI HA UN NUOVO OBIETTIVO

Esecuzione A — prompt da solo (batch=1)

Esecuzione B — stesso prompt, ma in batch con altri 7

Perché succede questo?

Post recenti

POST RECENTI