xG & EPV NON SONO INTERCAMBIABILI: ATTENZIONE ALLA METRICA SBAGLIATA

13 ore fa
Tempo di lettura: 5 min

C'è una domanda che chi lavora con i dati nel calcio dovrebbe porsi più spesso: la metrica con cui descriviamo come è andata una partita è davvero la stessa con cui dovremmo prevedere come andrà la prossima?

La risposta intuitiva è sì.

La risposta empirica è no.

E uno studio uscito a novembre 2025 lo ha quantificato su tre stagioni di Bundesliga, con un risultato che ha implicazioni dirette per chi costruisce modelli di pricing, scouting o valutazione delle prestazioni.

Due metriche, due funzioni diverse

L'xG misura la probabilità di gol di un tiro al momento in cui viene effettuato.

È una metrica di sintesi potentissima per il post-match: comprime tutta l'azione offensiva di una squadra in un numero che racconta quanto è stata pericolosa nelle conclusioni.

Ma ha un limite definitorio: non vede ciò che non finisce in tiro.

La grande occasione che si esaurisce con un cross sbagliato all'ultimo, la transizione veloce neutralizzata dal recupero difensivo, la pressione alta che produce un possesso pericoloso nei trenta metri ma senza conclusione — niente di tutto questo entra nei calcoli.

L'EPV (Expected Possession Value) si muove su un piano diverso.

Stima istante per istante la probabilità che un possesso porti a un gol nei secondi successivi, indipendentemente dal fatto che si concluda con un tiro.

È una metrica più "completa" sull'azione offensiva, ma proprio per questo meno sintetica e più rumorosa quando si tratta di descrivere ciò che è già avvenuto.

Sul piano teorico la differenza è chiara.

Sul piano operativo è stata ignorata a lungo, finché qualcuno non ha messo le due metriche in competizione diretta sullo stesso compito.

Lo studio Forcher et al.

Il paper AI in Bundesliga match analysis — expected possession value (EPV) vs. expected goals (xG) to predict match outcomes (Forcher et al., Frontiers in Sports and Active Living, 10 novembre 2025, DOI 10.3389/fspor.2025.1713852) è uno dei lavori più rigorosi della letteratura recente sul tema.

Gli autori — Karlsruhe Institute of Technology in collaborazione con il match analysis department del TSG 1899 Hoffenheim — usano event data ufficiali della Deutsche Fußball Liga e tracking data TRACAB a 25 Hz su tre stagioni di Bundesliga (2022/23, 2023/24, 2024/25), e mettono a confronto xG ed EPV in due scenari diversi: post-match (descrivere il risultato della partita appena giocata) e pre-match (prevedere l'esito della prossima basandosi sulle ultime tre).

Il design è pulito.

Per il pre-match vengono costruiti due modelli paralleli con esattamente le stesse feature contestuali — sede della partita, forza dell'avversario, difficoltà delle ultime tre gare, performance offensiva e difensiva recente — ma in un caso si esclude qualunque variabile derivata dall'xG, nell'altro qualunque variabile derivata dall'EPV.

Si testano XGBoost e Random Forest come regressori, si applica una hold-out split 80/20 a livello di partita per evitare data leakage, e si fa cross-validation a cinque fold con tuning degli iperparametri. Il numero atteso di gol uscito dai modelli viene poi convertito in probabilità di esito (vittoria, pareggio, sconfitta) tramite una doppia distribuzione di Poisson alla Maher e 10.000 simulazioni Monte Carlo per partita.

Test set finale: 306 partite di Bundesliga 2024/25.

I risultati sono netti.

In post-match vince l'xG con uno scarto sostanziale: Ranked Probability Score di 0,148 contro 0,191 dell'EPV, accuracy del 65,6% contro 59,6%. Più basso è l'RPS, migliore è la previsione probabilistica. La differenza non è di un'incollatura: per descrivere ciò che è successo, la riduzione ai tiri non è una perdita di informazione, è un'efficiente compressione del segnale.

Il rumore offensivo che non produce conclusioni è, ai fini descrittivi, irrilevante.

In pre-match la classifica si capovolge: EPV con RPS 0,194 e accuracy 58,3% supera l'xG (RPS 0,199, accuracy 55,6%).

Entrambi i modelli battono il baseline Elo (RPS 0,202, accuracy 55,3%), ma il punto rilevante è altrove: per prevedere la prossima partita, l'informazione su ciò che una squadra ha fatto fuori dai tiri — pressione, costruzione, transizioni pericolose — è più predittiva di quella sui tiri stessi. Anche solo battere l'Elo, va detto, non è un risultato da poco: l'Elo è un baseline notoriamente robusto, e farlo con feature derivate da appena tre partite recenti è un segnale che il contenuto informativo dell'EPV è denso.

C'è poi un dettaglio metodologico che merita attenzione, perché spiega anche perché l'EPV è una metrica più difficile da maneggiare.

Nel dataset, solo l'1,06% delle azioni di possesso si traduce in un gol nei dieci secondi successivi, contro il 13,08% dei tiri che diventano gol.

Lo squilibrio di classe è di un ordine di grandezza, e impatta direttamente sull'F1-score (0,14 per l'EPV contro 0,36 per l'xG sul test set 2024/25), pur senza compromettere la calibrazione complessiva del modello.

È un promemoria utile: l'EPV non è strettamente "meglio" dell'xG in senso assoluto, è uno strumento che richiede più cura nell'addestramento e che paga un prezzo in termini di rumore in cambio di una copertura informativa più ampia.

Quando il compito è prevedere un evento futuro che dipende da segnali deboli e diffusi, quel prezzo si rivela un investimento.

Quando il compito è descrivere un evento già accaduto, il segnale forte e concentrato dell'xG vince.

Perché il segnale si capovolge

La spiegazione è elegante. In post-match si valuta una partita giocata: i tiri sono il distillato del processo offensivo, e qualunque azione pericolosa che non sia diventata tiro non ha effettivamente influito sul risultato.

L'xG è quindi la metrica giusta perché taglia il rumore al netto di ciò che conta davvero per il punteggio.

In pre-match il problema è diverso: stiamo cercando di stimare la forza strutturale di una squadra. Una squadra che genera continuamente azioni pericolose ma converte poco in tiri ha una qualità che l'xG non cattura, mentre l'EPV sì.

Sopprimere il segnale fuori dai tiri, in questo caso, significa scartare informazione utile. Forcher e colleghi lo scrivono in modo asciutto: l'EPV "fornisce una rappresentazione più completa del potenziale offensivo dell'intera azione, anche in assenza di un tiro".

L'implicazione per chi costruisce modelli

Il messaggio operativo è uno solo, ma è netto: usare la stessa metrica per descrivere il passato e prevedere il futuro è un errore di calibrazione, non una semplificazione accettabile.

L'xG è uno strumento post-match; usarlo come input principale di un modello pre-match significa lavorare con un proxy subottimale di una quantità — la forza offensiva attesa — che ha bisogno di un altro tipo di informazione.

In termini di rischio decisionale: chi calcola la forza offensiva di una squadra in vista della prossima partita basandosi solo su xG accumulato sta sistematicamente sottostimando le squadre che generano molto pericolo senza tradurlo in tiri (pressing alto, calcio di possesso strutturato) e sovrastimando quelle che hanno tirato spesso ma da posizioni mediocri.

Il paper di Forcher non è una rivoluzione concettuale: l'idea che pre-match e post-match richiedano modelli diversi è nota da tempo.

Ma è una delle prime quantificazioni rigorose dello scarto, su tracking data ufficiali e su un campione abbastanza grande da rendere il segnale robusto.

E se quello scarto è confermato, la conseguenza per chiunque faccia validazione di modelli predittivi nel calcio è semplice: la domanda "quale metrica stiamo usando?" deve sempre venire dopo "in che momento della filiera la stiamo usando?".