Cristiano Ronaldo parece creer que el fútbol no se puede predecir. Sin embargo, para una proyecto final en la materia de Estadística Aplicada, mi equipo y yo decidimos ver si era posible refutar al comandante y pronosticar la tabla final de la Premier League utilizando regresión lineal.
¿ Por qué regresión lineal?
La regresión lineal es un modelo matemático básico pero poderoso. Nos permite modelar la relación entre dos variables para proyectar el futuro a partir de lo sucedido en el pasado. El modelo necesita aprender con pares de valores para después poder predecir a partir de uno solo de ellos. Con un ejemplo se entiende mejor: Si tengo el numero de goles que mete cada equipo en una temporada y su número de puntos al final de esa temporada, puedo entrenar un modelo dándole distintos pares (GOLES,PUNTOS):
- (95 goles, 98 puntos) Manchester City 2018-2019
- (34 goles, 26 puntos) Fulham 2018-2019
- (44 goles, 49 puntos) Everton 2017-2018
- (68 goles, 81 puntos) Leicester City 2015-2016
- (89 goles, 97 puntos) Liverpool 2018-2019
- (71 goles, 82 puntos) Chelsea 2013-2014
- …
Con estos datos se ajusta una regresión lineal y el modelo “aprende”. Entonces eventualmente si yo le doy un número de goles al final de una temporada, me podrá dar un estimado de cuántos puntos acumulará ese equipo. Desde luego, mientras más datos, tengamos, mejor será la predicción.
Entonces el objetivo de nuestro proyecto era ver que variable o combinación de estas puede predecir mejor el número de puntos que se acumulan a lo largo de una temporada.
El plan de juego
La primera pregunta entonces era ¿que variables tomaríamos en cuenta para evaluar el número de puntos que acumula cada equipo? Pensamos que el valor de mercado podía ser la respuesta. Muchas veces se dice que el fútbol se gana a billetazos, como pretenden hacerlo clubes como el Real Madrid, el PSG o el Manchester City. Sin embargo, en el año 2016 el Leicester City se coronó campeón de la Premier League tan solo una temporada después de haber ascendido a primera división y valiendo 487.5 millones de euros menos que el equipo con mayor valor de mercado en la liga (Chelsea FC).
Si de verdad el dinero ganara campeonatos, entonces el Leicester City no tenía prácticamente ninguna esperanza esa temporada.
Analizando este caso nos dimos cuenta que el valor de mercado no es la única variable que explica el éxito de un equipo. Existen otros factores que se deben tomar en cuenta.
Las variables
Análogo al ejemplo de los goles, implementamos entonces un modelo de regresión para cada una de las siguientes variables:
- Valor de mercado: Valor de mercado del equipo según la página Transfer Markt.
- Diferencia de goles esperada : Goles a favor esperados menos Goles en contra esperados para un equipo cada 90 minutos. Esta métrica es calculada por el portal Statsbomb.
- FIFA ratings: El rating que el videojuego de EA studios le asigna a cada jugador anualmente. Ya que no se da un valor al equipo como tal, promediamos el fifa rating de los 15 jugadores con más minutos de juego para cada equipo.
- Whoscored Ratings: Calificación asignada por el portal Whoscored a cada jugador después de cada partido (de 0 a 10). Se calcula en vivo después de cada acción. Todos los jugadores comienzan en 6 y dependiendo de sus acciones, sube o baja su calificación. Al finalizar el partido, la calificación que tenga el jugador en ese momento, es su calificación para ese partido.
Para entrenar los modelos, tomamos valores de estas variables desde la temporada 2013-2014 hasta la 2018-2019 para cada equipo.
Hicimos una regresión para cada variable por separado y luego probamos algunas combinaciones. Fueron en total 10 modelos pero solo 7 eran matemáticamente válidos. Una vez ajustados los datos, había que evaluar que tan “bien” predice cada variable los puntos obtenidos para cada equipo.
Para ver si los modelos eran buenos, decidimos simular con cada uno las 29 jornadas que se han jugado esta temporada y ver que tanto diferían con los datos de la vida real.
Prediciendo hasta el momento
Evaluamos el rendimiento de cada regresión viendo cuántos equipos acertaba en cada una de las cuatro zonas importantes de la tabla:
- Zona de Champions: Primeros 4 equipos.
- Zona de Europa League: Posiciones 5,6 y 7.
- Media tabla: Posiciones 8-17.
- Descenso: Posiciones 18, 19 y 20.
Construimos el siguiente sistema de puntos para poder determinar cuál es el mejor modelo:
- 3 puntos por determinar de forma correcta al campeón.
- 3 puntos por equipo que posicione correctamente en zona de Champions League.
- 2 puntos por equipo en Europa League.
- 1 un punto por equipo de descenso.
Usando este criterio, las variables que mejor puntaje obtuvieron y por tanto más servían para explicar la posición final en la tabla fueron las siguientes:
- Rating Whoscored
- Diferencia de goles esperada
- Valor de mercado combinado con Diferencia de goles esperada
- Valor de mercado
- Valor de mercado combinado con Rating Whoscored
- Ratings FIFA
- Ratings FIFA combinado con Rating Whoscored
- Cualquier combinación de 3 o más variables ya que no tenía sentido matemáticamente. Los datos no ajustaban a un modelo lineal y los supuestos no se podían validar.
¿Por qué trabajar con una variable dio mejores resultados que con una combinación?
La lógica diría: más información es mejor, pero no siempre es el caso. Al combinar variables surge algo llamado problema de multicolinearidad. Pensémoslo así: si yo quiero un refresco sabor cola, no necesito comprar una Pepsi y además una Coca Cola. Son productos lo suficientemente parecidos como para poder comprar solo uno de los dos y satisfacer mi antojo sin necesidad de gastar dinero de más en el otro. Por lo tanto, lo óptimo es comprar solo uno y y quedar satisfecho sin necesidad de gastar dinero extra en algo que ya no me brinda mayor beneficio.
Resultados de las simulaciones
Los resultados de cada modelo se pueden resumir en la siguiente tabla. La columna amarilla es la tabla actual al momento y las demás son las predicciones de nuestros modelos. Los equipos en verde son los que el modelo predice correctamente su zona en la tabla. Los rojos, aquellos en donde falla.
Recordemos que utilizando el sistema de puntos propuesto para evaluar los modelos, el que mejor puntaje obtuvo fue aquel que utiliza el rating Whoscored para predecir:
Aciertos del modelo:
- Coinciden en zona de Champions
- Coincide en 9/10 equipos de media tabla
- Mete a Bournemouth y Norwich City a zona de descenso
Fallos del modelo:
- Desciende al Southampton en vez de al Aston Villa.
- Deja fuera de Europa League al Sheffield y mete al Tottenham
Algo interesante…
Faltando 9 fechas por jugarse, el Liverpool mantiene el liderato y aventaja al segundo lugar (Manchester City) por una diferencia de 25 puntos. Está DOMINANDO la liga este año y es prácticamente un hecho que será campeón. Sin embargo:
- El Manchester City es superior en la métrica de Goles esperados y Whoscored Rating, las métricas de nuestros dos mejores modelos.
- 3 de nuestros 7 modelos tienen en primer lugar al Manchester City y no al Liverpool.
Entonces, si en las simulaciones con estas dos variables el Liverpool no aparece en primer lugar, quiere decir que están dominando el juego en un aspecto oculto, algo que no se refleja en diferencia de goles o desempeño individual de los jugadores.
¿Que estará haciendo entonces el Liverpool para tener tan amplia ventaja? Todo indica que la respuesta está en los pases, sus movimientos, su defensa, o algo que no es medido por el Whoscored Rating ni por la diferencia de goles. OJO: El Liverpool es pionero en la implementación de sports analytics dentro del fútbol… ¿Coincidencia?
Lo dejamos para otro artículo 😉
Un par de comentarios finales
- El mejor modelo para simular la temporada hasta el momento es el que utiliza el desempeño individual de los jugadores. Por lo que la frase de Di Stefano “jugamos como nunca y perdimos como siempre” parece tener poca validez.
- Los ratings del FIFA no reflejan en lo más mínimo el desempeño real de los equipos en la Premier League, según nuestros modelos. (Aprovecho para quejarme: el Liverpool está Overpowered en el FIFA 20).
Finalmente quiero agradecer a Fer y Paquito por el enorme esfuerzo que dedicaron a este trabajo. Sin ustedes no habría sido posible. Son los verdaderos MVPs.
tadalafil 1mg
sildenafil cheapest price uk
loans by phone
viagra 100mg price in india online
loans bad credit guaranteed approval
buy discount viagra online
payday loans in maryland
viagra cialis online
where to purchase cialis cheap
apply for a loan
payday loan no credit check
bad credit lenders only
toprol xl 75 mg
sildenafil buy over the counter
best price viagra 25mg
where to get cialis prescription
canadian viagra no prescription
cash loans online
viagra order online canada
how to buy generic cialis
generic viagra fast shipping
cash advances online
cash advance loans
best loan consolidation
viagra india cheap
cash advance loans
tizanidine 2mg cost
dipyridamole brand name australia
100 guaranteed payday loan
mestinon iv
payday advances
cash loans
how much is a cialis pill
personal loan approval
guaranteed payday loans
florinef 0.1mg price in india
confido 2018
compare personal loans
personal loan lenders
gasex tablets price
skelaxin generic costs
sildenafil 20 mg canada
viagra cream price in india
rhinocort otc cost
20 mg sildenafil daily
bad credit quick loans
Taxi moto line
128 Rue la Boétie
75008 Paris
+33 6 51 612 712
Taxi moto paris
If you are going for most excellent contents like I do,
just go to see this web site every day because it gives feature contents, thanks
viagra otc united states
cash payday loan
stromectol
buying viagra in us
denver payday loans
same day loans for bad credit
carafate over the counter equivalent
trental 400 mg tablet online
online viagra in usa
payday loans arizona
canadian pharmacy in canada
cheap viagra uk
american modern home insurance company
buy cialis europe
cost of viagra in usa
loan personal
manufactured home insurance
cash advance payday loan
price of ivermectin
price of viagra 100mg
bad credit loans guaranteed approval
shelter insurance
homeowners insurance
canadian mail order pharmacy
plaquenil online
quick loans for bad credit same day
mobile home insurance companies
utah payday loans
order singulair
universal property and casualty insurance
average home insurance cost
200 mg viagra india
ivermectin tablets uk
myambutol cost
bad credit money loans
home auto insurance
compare home insurance rates
cost viagra canada
term insurance
free chat cam
loan stores
where to buy femara in south africa
online shopping pharmacy india
skelaxin 880mg
plaquenil 200mg
free cams
cash payday loan
joint life insurance
canadian family pharmacy
otc ed drugs https://sildenafilxxl.com/ price of viagra
buy sildenafil sildenafil pharmacy
tadalafil tadalafil online
buy generic drugs cheap buy generic drugs from india
sildenafil for sale buy sildenafil online
zantac generic zantac 150
generic valtrex sale valtrex generic canada
zantac 150 generic for zantac
natural ed drugs best online canadian pharmacy ed drug prices
viagra without a prescription
ed medicine ed meds online without doctor prescription canadian drug pharmacy
viagra without a prescription
generic for cialis buy tadalafil cialis maximum dosage
generic for cialis cheap cialis fda warning list cialis
cheap viagra online buy viagra generic viagra online
prescription drugs online without
order viagra online buy viagra online viagra walgreens
ed drugs online
buy generic viagra viagra how to get viagra
otc ed drugs
viagra generic buy viagra online viagra coupon
ed pharmacy
best pills for ed ed drugs online from canada prescription drugs without doctor approval
online cialis cialis generic for cialis
viagra without prescription generic viagra over the counter viagra cvs
generic viagra cost buy viagra generic canadian pharmacy viagra
viagra generic buy viagra where to buy viagra online