fbpx

Prediciendo la Premier League con Regresión Lineal

“Es inútil hacer una predicción, no vale la pena especular porque nada está escrito en piedra y las cosas cambian todo el tiempo en el fútbol. “

-Cristiano Ronaldo

Cristiano Ronaldo parece creer que el fútbol no se puede predecir. Sin embargo, para una proyecto final en la materia de Estadística Aplicada, mi equipo y yo decidimos ver si era posible refutar al comandante y pronosticar la tabla final de la Premier League utilizando regresión lineal.

¿ Por qué regresión lineal?

La regresión lineal es un modelo matemático básico pero poderoso. Nos permite modelar la relación entre dos variables para proyectar el futuro a partir de lo sucedido en el pasado. El modelo necesita aprender con pares de valores para después poder predecir a partir de uno solo de ellos. Con un ejemplo se entiende mejor: Si tengo el numero de goles que mete cada equipo en una temporada y su número de puntos al final de esa temporada, puedo entrenar un modelo dándole distintos pares (GOLES,PUNTOS):

  • (95 goles, 98 puntos) Manchester City 2018-2019
  • (34 goles, 26 puntos) Fulham 2018-2019
  • (44 goles, 49 puntos) Everton 2017-2018
  • (68 goles, 81 puntos) Leicester City 2015-2016
  • (89 goles, 97 puntos) Liverpool 2018-2019
  • (71 goles, 82 puntos) Chelsea 2013-2014

Con estos datos se ajusta una regresión lineal y el modelo “aprende”. Entonces eventualmente si yo le doy un número de goles al final de una temporada, me podrá dar un estimado de cuántos puntos acumulará ese equipo. Desde luego, mientras más datos, tengamos, mejor será la predicción.

Ajuste de una recta a una serie de puntos utilizando regresión lineal.
via Towards Data Science

Entonces el objetivo de nuestro proyecto era ver que variable o combinación de estas puede predecir mejor el número de puntos que se acumulan a lo largo de una temporada.

El plan de juego

via Gfycat.com

La primera pregunta entonces era ¿que variables tomaríamos en cuenta para evaluar el número de puntos que acumula cada equipo? Pensamos que el valor de mercado podía ser la respuesta. Muchas veces se dice que el fútbol se gana a billetazos, como pretenden hacerlo clubes como el Real Madrid, el PSG o el Manchester City. Sin embargo, en el año 2016 el Leicester City se coronó campeón de la Premier League tan solo una temporada después de haber ascendido a primera división y valiendo 487.5 millones de euros menos que el equipo con mayor valor de mercado en la liga (Chelsea FC).

Si de verdad el dinero ganara campeonatos, entonces el Leicester City no tenía prácticamente ninguna esperanza esa temporada.

Valor de mercado de los equipos en la Premier League a agosto de 2015
Fuente: Transfer Markt

Analizando este caso nos dimos cuenta que el valor de mercado no es la única variable que explica el éxito de un equipo. Existen otros factores que se deben tomar en cuenta.

Las variables

Análogo al ejemplo de los goles, implementamos entonces un modelo de regresión para cada una de las siguientes variables:

  • Valor de mercado: Valor de mercado del equipo según la página Transfer Markt.
  • Diferencia de goles esperada : Goles a favor esperados menos Goles en contra esperados para un equipo cada 90 minutos. Esta métrica es calculada por el portal Statsbomb.
  • FIFA ratings: El rating que el videojuego de EA studios le asigna a cada jugador anualmente. Ya que no se da un valor al equipo como tal, promediamos el fifa rating de los 15 jugadores con más minutos de juego para cada equipo.
  • Whoscored Ratings: Calificación asignada por el portal Whoscored a cada jugador después de cada partido (de 0 a 10). Se calcula en vivo después de cada acción. Todos los jugadores comienzan en 6 y dependiendo de sus acciones, sube o baja su calificación. Al finalizar el partido, la calificación que tenga el jugador en ese momento, es su calificación para ese partido.

Para entrenar los modelos, tomamos valores de estas variables desde la temporada 2013-2014 hasta la 2018-2019 para cada equipo.

Hicimos una regresión para cada variable por separado y luego probamos algunas combinaciones. Fueron en total 10 modelos pero solo 7 eran matemáticamente válidos. Una vez ajustados los datos, había que evaluar que tan “bien” predice cada variable los puntos obtenidos para cada equipo.

Para ver si los modelos eran buenos, decidimos simular con cada uno las 29 jornadas que se han jugado esta temporada y ver que tanto diferían con los datos de la vida real.

Prediciendo hasta el momento

Evaluamos el rendimiento de cada regresión viendo cuántos equipos acertaba en cada una de las cuatro zonas importantes de la tabla:

  • Zona de Champions: Primeros 4 equipos.
  • Zona de Europa League: Posiciones 5,6 y 7.
  • Media tabla: Posiciones 8-17.
  • Descenso: Posiciones 18, 19 y 20.
via Giphy.com

Construimos el siguiente sistema de puntos para poder determinar cuál es el mejor modelo:

  • 3 puntos por determinar de forma correcta al campeón.
  • 3 puntos por equipo que posicione correctamente en zona de Champions League.
  • 2 puntos por equipo en Europa League.
  • 1 un punto por equipo de descenso.

Usando este criterio, las variables que mejor puntaje obtuvieron y por tanto más servían para explicar la posición final en la tabla fueron las siguientes:

  1. Rating Whoscored
  2. Diferencia de goles esperada
  3. Valor de mercado combinado con Diferencia de goles esperada
  4. Valor de mercado
  5. Valor de mercado combinado con Rating Whoscored
  6. Ratings FIFA
  7. Ratings FIFA combinado con Rating Whoscored
  8. Cualquier combinación de 3 o más variables ya que no tenía sentido matemáticamente. Los datos no ajustaban a un modelo lineal y los supuestos no se podían validar.

¿Por qué trabajar con una variable dio mejores resultados que con una combinación?

La lógica diría: más información es mejor, pero no siempre es el caso. Al combinar variables surge algo llamado problema de multicolinearidad. Pensémoslo así: si yo quiero un refresco sabor cola, no necesito comprar una Pepsi y además una Coca Cola. Son productos lo suficientemente parecidos como para poder comprar solo uno de los dos y satisfacer mi antojo sin necesidad de gastar dinero de más en el otro. Por lo tanto, lo óptimo es comprar solo uno y y quedar satisfecho sin necesidad de gastar dinero extra en algo que ya no me brinda mayor beneficio.

via Tenor.com

Resultados de las simulaciones

Los resultados de cada modelo se pueden resumir en la siguiente tabla. La columna amarilla es la tabla actual al momento y las demás son las predicciones de nuestros modelos. Los equipos en verde son los que el modelo predice correctamente su zona en la tabla. Los rojos, aquellos en donde falla.

All of the models
Predicciones de los modelos después de 29 jornadas (actualmente)

Recordemos que utilizando el sistema de puntos propuesto para evaluar los modelos, el que mejor puntaje obtuvo fue aquel que utiliza el rating Whoscored para predecir:

Aciertos del modelo:

  • Coinciden en zona de Champions
  • Coincide en 9/10 equipos de media tabla
  • Mete a Bournemouth y Norwich City a zona de descenso

Fallos del modelo:

  • Desciende al Southampton en vez de al Aston Villa.
  • Deja fuera de Europa League al Sheffield y mete al Tottenham

Algo interesante…

Faltando 9 fechas por jugarse, el Liverpool mantiene el liderato y aventaja al segundo lugar (Manchester City) por una diferencia de 25 puntos. Está DOMINANDO la liga este año y es prácticamente un hecho que será campeón. Sin embargo:

  • El Manchester City es superior en la métrica de Goles esperados y Whoscored Rating, las métricas de nuestros dos mejores modelos.
  • 3 de nuestros 7 modelos tienen en primer lugar al Manchester City y no al Liverpool.
Métricas Diferencia de goles esperados (xG) y Whoscored Rating (whoscored) para los equipos en lo que va de la temporada.

Entonces, si en las simulaciones con estas dos variables el Liverpool no aparece en primer lugar, quiere decir que están dominando el juego en un aspecto oculto, algo que no se refleja en diferencia de goles o desempeño individual de los jugadores.

¿Que estará haciendo entonces el Liverpool para tener tan amplia ventaja? Todo indica que la respuesta está en los pases, sus movimientos, su defensa, o algo que no es medido por el Whoscored Rating ni por la diferencia de goles. OJO: El Liverpool es pionero en la implementación de sports analytics dentro del fútbol… ¿Coincidencia?

Lo dejamos para otro artículo 😉

Un par de comentarios finales

via Make a Gif
  • El mejor modelo para simular la temporada hasta el momento es el que utiliza el desempeño individual de los jugadores. Por lo que la frase de Di Stefano “jugamos como nunca y perdimos como siempre” parece tener poca validez.
  • Los ratings del FIFA no reflejan en lo más mínimo el desempeño real de los equipos en la Premier League, según nuestros modelos. (Aprovecho para quejarme: el Liverpool está Overpowered en el FIFA 20).

Finalmente quiero agradecer a Fer y Paquito por el enorme esfuerzo que dedicaron a este trabajo. Sin ustedes no habría sido posible. Son los verdaderos MVPs.

via Giphy

Links:

Published
4 years ago
Categories
Futbol
Comments
119 Comments
Written by Pablo Landeros
"People in financial markets and sports operate with beliefs and biases. To the extent you can eliminate both and replace them with data, you gain a clear advantage." -John Henry

119 comments on “Prediciendo la Premier League con Regresión Lineal

  1. Taxi moto line
    128 Rue la Boétie
    75008 Paris
    +33 6 51 612 712  

    Taxi moto paris

    If you are going for most excellent contents like I do,
    just go to see this web site every day because it gives feature contents, thanks

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Share via
Copy link
Powered by Social Snap