TEXAS HOLD'EM, ESISTE L'ALGORITMO DEL GIOCATORE PERFETTO?

Star Consulting
31 mag 2023
Tempo di lettura: 3 min

I computer ora possono partecipare al gioco del poker, grazie a un innovativo algoritmo matematico che permette loro di eseguire partite impeccabili.

Vediamo in che modo questo accade.

I termini "Foldare", "Buio", "Controbuio", "Stack", "All-in" possono sembrare insignificanti per molti, ma per gli appassionati di poker, specialmente del Texas Hold'em, questi termini possono suscitare non poche emozioni. O forse no, considerando che i campioni del gioco di carte più famoso al mondo sono noti per il controllo delle loro emozioni.

È naturale, quindi, che il computer, entità per definizione impassibile, avrebbe dovuto provare a giocare sul tavolo verde. Un team di ricercatori canadesi afferma infatti di aver sviluppato, per la prima volta, un algoritmo con la strategia perfetta per giocare a poker alla texana.

Per oltre cinquant'anni, i giochi sono stati un importante campo di prova per le nuove idee di intelligenza artificiale. Chi potrebbe dimenticare, ad esempio, la sconfitta del campione di scacchi Kasparov contro il computer Deep Blue?

Addirittura Alan Turing, recentemente portato sul grande schermo nei cinema, fu tra i primi a sviluppare programmi (su carta) destinati a confermare le sue prime idee sulla computazione e sull'intelligenza artificiale.

I giochi sono presi molto sul serio da ricercatori come il canadese Michael Bowling dell'Università dell'Alberta, che lavora quotidianamente con il Computer Poker Research Group (sì, esiste davvero un gruppo del genere).

"Il poker è stata una grande sfida per l'intelligenza artificiale negli ultimi 40 anni e, fino al nostro lavoro, nessuno era riuscito a padroneggiare l'heads-up limit Texas hold'em", afferma Bowling. Prima di procedere, è importante chiarire di cosa stiamo parlando.

Nel Texas Hold'em, a differenza del poker tradizionale, ogni giocatore riceve solo due carte. Queste, insieme a cinque carte comuni scoperte dal mazziere durante le diverse fasi di gioco, costituiscono la mano di ogni giocatore. La variante studiata dagli scienziati, come descritto nell'articolo pubblicato sulla rivista Science, impone un limite ai rilanci e coinvolge solo due giocatori (un duello, heads-up).

Quindi, in un certo senso, riguarda la fase finale di una partita iniziata con numerosi partecipanti attorno a un tavolo.

Il poker appartiene alla categoria di giochi caratterizzati da informazione imperfetta, ovvero giochi in cui un giocatore non ha completa conoscenza di eventi passati, a differenza di giochi come scacchi o dama.

Fino ad ora, non esisteva alcun algoritmo matematico che potesse risolvere un gioco con informazione imperfetta.

Ciò potrebbe essere dovuto al fatto che, ad esempio, una partita di Heads-up limit hold'em (Hulhe) comporta matematicamente qualcosa come 316 miliardi di miliardi di scenari possibili, con 390 milioni di miliardi di punti decisionali - momenti in cui il giocatore deve prendere una decisione.

Questo rende il poker molto più impegnativo per un computer rispetto a giochi come gli scacchi.

Lo studio dell'Istituto per le applicazioni del calcolo del Cnr di Roma

"In questo studio", spiega Roberto Natalini, direttore dell'Istituto per le applicazioni del calcolo del Cnr di Roma, "abbiamo cercato di sviluppare un algoritmo che simulasse un giocatore perfetto, ovvero una strategia che mirasse a raggiungere l'equilibrio di Nash. Ciò non significa vincere sempre, ma fare il meglio possibile con le carte a disposizione". A differenza degli scacchi, dove ogni mossa porta a un insieme preciso di mosse possibili, il gioco del Hulhe presenta una sfida molto più complessa.

La principale difficoltà per un algoritmo è esplorare l'immenso "albero" dei possibili scenari dei giochi del poker - una quantità enormemente grande di scenari potenziali che potrebbe travolgere la capacità di qualsiasi computer.

La chiave è stata ridurre molti di questi percorsi. In particolare, l'algoritmo segue solo quel percorso risulta più "logico".

Questo è tecnicamente noto come regret (rimpianto), e corrisponde a una situazione in cui un'opportunità favorevole non è stata sfruttata", continua Natalini.

L'algoritmo sviluppato è stato chiamato CFR+ (Counterfactual Regret Minimization).

Il matematico aggiunge: "In questo modo, eliminiamo i percorsi inutili e raggiungiamo una soluzione in un tempo ragionevole. Così, possiamo consigliare la mossa da fare. Seguendo questa metodologia, la strategia finale risolve il problema in modo approssimato, ma è statisticamente indistinguibile al 95% da un giocatore perfetto che gioca per 70 anni, 12 ore al giorno, a 200 partite all'ora".

Quindi, gli scienziati sono riusciti a sviluppare un algoritmo che simula la partita di un giocatore perfetto. Ciò non garantisce necessariamente la vittoria, poiché molto dipende dalle carte in mano al giocatore e a quelle dell'avversario. Si è constatato che se uno dei due giocatori è il mazziere, ha un leggero vantaggio e quindi una maggiore probabilità di vincere.

Sul sito è anche possibile testare questa strategia.

Algoritmi come il CFR+ possono essere utilizzati per processi decisionali robusti, come la presa di importanti decisioni mediche e ricerca.

Tuttavia, citando anche la famosa frase di Turing a difesa del loro lavoro nel campo dei giochi: "Sarebbe malafede da parte nostra nascondere il fatto che il motivo principale che ci spinge a lavorare è il puro divertimento".