IL LIMITE CHE L'xG IGNORA: UN POSSESSO, UN GOL MASSIMO, E UNA MATEMATICA DA RIVEDERE

1 giorno fa
Tempo di lettura: 3 min

C'è un'assunzione silenziosa alla base di ogni modello xG in circolazione: che i tiri siano eventi indipendenti.

La si dà per acquisita, si aggregano i valori xG di un possesso, e si ottiene una stima della pericolosità dell'azione.

Il problema è che questa assunzione è empiricamente falsa.

E un gruppo di ricercatori della Wharton School ha appena quantificato di quanto ci stia portando fuori strada.

Il punto è banale nella sua evidenza: in un singolo possesso può essere segnato al massimo un gol. Se un attaccante tira tre volte consecutive da 0,4 xG ciascuno — una respinta del portiere, una ribattuta della difesa, una conclusione a lato — il modello accumula 1,2 xG.

Ma quel possesso poteva produrre un solo gol.

Quella differenza non è rumore statistico: è un errore strutturale di aggregazione che si propaga in tutto ciò che costruiamo sopra l'xG, dai power ratings ai modelli di adjusted plus-minus, fino ai sistemi di pricing.

Il problema, formalizzato

Il paper Beyond Expected Goals: A Probabilistic Framework for Shot Occurrences in Soccer (Pipping-Gamón et al., arXiv 2512.00203, novembre 2025) parte esattamente da qui.

Gli autori identificano anche un secondo problema, speculare al primo: l'xG standard condiziona la probabilità di gol al fatto che il tiro sia effettivamente avvenuto.

Una grande occasione sprecata perché il passaggio decisivo non trova il compagno libero non entra nei calcoli. Il modello vede solo ciò che è stato osservato, non ciò che poteva accadere.

La conclusione è netta: l'xG aggregato sovrastima le squadre rebound-dipendenti e sottostima quelle che creano pericolo senza sempre tradurlo in tiro.

La proposta: xG+

La soluzione è scomporre il processo generativo del gol in due componenti distinte.

A ogni istante t di un possesso il framework stima due quantità: xS (expected shots), la probabilità che un tiro avvenga nel prossimo secondo, e xG, la probabilità condizionata che quel tiro sia gol.

Il prodotto xS × xG produce la nuova metrica, xG+, che rappresenta la probabilità istantanea di segnare nel prossimo secondo — sia che il tiro avvenga, sia che non avvenga.

Aggregata sul possesso, la metrica rispetta per costruzione il vincolo del "massimo un gol" e integra le occasioni pericolose che non si traducono mai in conclusione.

Dal punto di vista computazionale gli autori usano due gradient-boosted trees addestrati su tracking ed event data di Gradient Sports relativi a tre stagioni di Premier League (2022-2025). Le feature coprono posizione, angolo, altezza e velocità della palla, posizione del portiere e profili spaziali dei cinque giocatori più vicini per ciascuna squadra.

La velocità della palla emerge come un caso interessante: aumenta la probabilità che un tiro avvenga (bene per xS) ma riduce quella di conversione (male per xG), e l'effetto netto è visibile solo nella metrica combinata.

I risultati e perché contano

Due sono gli elementi che meritano attenzione. Il primo: xG+ migliora la predictive accuracy a livello di squadra rispetto all'xG classico.

Il secondo, più rilevante per chi lavora con i dati, è che il segnale di abilità individuale del giocatore risulta più persistente tra una stagione e l'altra.

In altre parole, l'over-performance sull'xG standard è in parte rumore di aggregazione; quella sull'xG+ è più robustamente un'abilità.

Tradotto in termini operativi, un team con 2,5 xG cumulati da otto tiri nati da ribaltamenti e seconde palle non ha avuto la stessa pericolosità di un team con 2,5 xG generati da cinque azioni strutturate. Sono due profili di rischio diversi.

Il primo è fragile, dipende dalla disorganizzazione difensiva avversaria; il secondo è replicabile.

La differenza non è accademica: è il delta tra un modello che misura la pericolosità e uno che misura la frenesia.

Il segnale della letteratura

xG+ non è un caso isolato.

La produzione accademica tra fine 2025 e inizio 2026 contiene almeno tre framework che tentano di correggere l'assunzione di indipendenza dei tiri: dai modelli basati su event sequences al Bayesian counterfactual xG (arXiv 2511.23072) fino ai framework probabilistici di simulazione a livello di stagione (arXiv 2602.15673).

Il segnale è coerente: la comunità di ricerca sta trattando l'xG tradizionale come baseline, non come punto di arrivo.

Chi costruisce modelli di valutazione della performance o di pricing basati sull'aggregazione lineare di xG sta lavorando con uno strumento di cui i limiti strutturali sono ormai documentati.

La domanda, adesso, è quanto tempo ci vorrà perché il resto del mercato se ne accorga.