Machine Learning e a Copa do Mundo

Não adianta esbravejar pelo fato de que economistas, matemáticos e estatísticos gastam horas desenvolvendo modelos matemáticos sofisticados que apontam, basicamente, para o mesmo resultado quando se trata de estimar os resultados de um evento esportivo como a Copa do Mundo.

Adivinhar o campeão é apenas a cereja do bolo neste processo. Muito mais divertido é poder dar um palpite elegante sobre quem será o vencedor num confronto do tipo Bélgica e Inglaterra, principalmente para alguém que manja tanto de futebol quanto uma criança de 7 anos de idade – que é o caso dos autores desse estudo/blog; ou mesmo tentar prever quais seleções avançarão para cada etapa da competição, marcar alguns pontos a mais no bolão da firma e, com sorte, ganhar alguns trocados. Dito isso, aqui vai um alerta de spoiler: no exercício que se segue, Brasil e Alemanha têm chances muito próximas de ganhar a Copa do Mundo da Rússia, com ligeira vantagem para a seleção canarinho.

Mas antes de apresentarmos o modelo e seus resultados, o que explica essa concentração de apostas do “mercado” em torno de poucos países, como Brasil, Alemanha e Espanha?

O desempenho corrente e a experiência passada importam consideravelmente na avaliação do destino de cada seleção participante de uma Copa do Mundo. Dos 20 torneios mundiais disputados desde 1930, o Brasil ergueu cinco taças, a Itália e a Alemanha ganharam quatro vezes, a Argentina e o Uruguai saíram vitoriosos duas vezes cada, ao passo que Inglaterra, França e Espanha ganharam uma edição. Portanto, é impossível negar que a escolha de qualquer um desses times como campeão é uma aposta segura (com o cuidado de se observar o ranking atual e, obviamente, a presença deles no evento). A taxa de presença desses times nas Copas do Mundo ao longo da história e suas campanhas passadas reforçam esse tipo de aposta: o Brasil é o único time que participou de todas as edições, ao passo que a Alemanha não esteve presente em apenas dois torneios e a Itália deixou de ir ao maior evento esportivo do mundo em três ocasiões (já contabilizando 2018).

O número de vezes em que estes times disputaram as finais também é algo digno de nota: oito no caso da Alemanha, sete do Brasil e seis da Itália. É ainda mais impressionante o fato de que, até hoje, apenas oito times conseguiram chegar até a etapa final da competição, tendo como base as últimas 13 edições: além dos três destacados acima, foram os casos de Argentina, Espanha, França, Inglaterra e Holanda.

As semifinais são eventos um pouco mais imprevisíveis do que as finais. Vinte e quatro times chegaram até esta etapa ao longo da história do futebol. No entanto, uma vez mais, apenas cinco deles (Alemanha, Argentina, Brasil, França e Itália) responderam por mais de 50% das vagas nesta fase da competição. Vale destacar que, ao que parece, em todo torneio há pelo menos um azarão nas semifinais. Em 2002 foram dois países: Turquia e Coréia do Sul, apesar deste último ter sido uma das seleções da casa (o que confirma a relevância do fator-casa em modelos da Copa); em 2006, muitos apontam que foi o caso de Portugal; e em 2010 essa alcunha de azarão foi dada ao Uruguai.

Como destacado acima, ser seleção do país-sede certamente é uma vantagem. Os times da casa ergueram a taça em pouco menos de 1/3 das Copas organizadas até agora, chegaram às semifinais em 50% das vezes e estiveram presentes nas oitavas de final em todos os eventos desde 1986, exceto na África do Sul.

Neste momento o leitor já deve ter se convencido de que, embora diversos fatores (muitas vezes imprevisíveis) influenciem os resultados jogo-a-jogo, nenhum modelo estatístico bem-especificado poderia sugerir uma semifinal sem a presença de duas ou três das seleções destacadas acima. No mesmo sentido, vale destacar também que nem abastecido com todos os dados históricos do mundo um modelo poderia transformar um time pouco competitivo em um campeão. Exemplo disso é que algumas seleções reconhecidas por sua tradição no futebol ficaram de fora da Copa do Mundo de 2018, caso da Itália e da Holanda.

Mas é possível avaliar de forma objetiva o desempenho passado e corrente de uma seleção de modo a termos um bom palpite para os jogos da Copa da Rússia?

Os sites de aposta (como o Bet365 e Betfair) podem ser um bom ponto de partida como uma medida subjetiva de força de cada seleção. Também é possível basear-se no ranking oficial da FIFA, apesar de a instituição ter declarado recentemente que a fórmula de cálculo do ranking sofrerá alteração. Nesta simulação nos baseamos no rating ELO, justamente por ser uma base padronizada e bem organizada de todas as partidas oficiais (desde 1872!) envolvendo times nacionais. A partir destes dados temos algo em torno de 45 mil jogos para alimentar nossos modelos de previsão.

Aqui vale uma pequena pausa para explicar o que é o ELO rating e como este indicador é calculado. O ELO foi desenvolvido por um físico Húngaro-Americano chamado Arpad Elo (1903-1992), com o objetivo de medir e ranquear a habilidade de jogadores de xadrez. Os ratings ELO têm sido utilizados em diversos esportes, como o tênis, mas a sua aplicação no mundo do futebol ganhou relevância nos últimos anos por se tratar de uma métrica de habilidade (ou força) dos times com qualidade superior ao ranking da FIFA.

O método ELO de ranqueamento leva em conta não só o número de vitórias, derrotas e empates de cada time, mas também as condições sob as quais o evento ocorreu. Como resultado, derrotar um time forte como o Brasil ou a Alemanha aumentará o ELO do time vencedor numa proporção muito maior do que uma vitória sobre Andorra ou Zâmbia. Além disso, uma vitória fora de casa gera um incremento maior sobre o ELO do que uma vitória dentro do próprio país; ganhar uma qualificatória é melhor que ganhar um amistoso; ou ainda, uma goleada de 7 a 0 gera mais pontos que uma vitória de 2 a 1. A partir do ELO também é possível comparar a força de cada seleção ao longo do tempo. Por exemplo, o time alemão que venceu a Copa do Brasil de 2014 era mais forte (no início do torneio) do que as seleções germânicas que venceram a competição em 1954, 1974 e 1990.

Olhando um pouco para o histórico do ELO, em nenhuma ocasião o time vencedor iniciou o torneio com rating abaixo de 2030 pontos, exceto na vitória surpresa do Uruguai sobre o Brasil na Copa de 1950. O time mais forte a ganhar uma Copa do Mundo foi o da Alemanha de 2014, com um ELO de partida de 2223 pontos (mais informações em https://www.eloratings.net/).

A Copa do Mundo de 2018, que possui um ELO médio de 1828 para todos os 32 times envolvidos, é o terceiro torneio mais fraco da história sob esta ótica, ficando à frente apenas dos mundiais de 1930 e 1938. No evento deste ano, apenas três seleções contam com rating superior a 2000, ao passo que em 2014 cinco times iniciaram o torneio com ELO acima desse patamar. Mas o outlier nesse caso foi a Copa passada. Desde 1994, apenas 3 seleções, em média, iniciaram a Copa com ratings superiores a 2000.

Com relação ao rating da seleção brasileira no evento deste ano, com 2142 pontos temos a segunda escalação mais forte a participar de uma Copa do Mundo, ficando atrás apenas daquela que entrou em campo em 2014.  No caso da Alemanha, a seleção de hoje é a terceira mais forte a participar de um mundial (ELO 2077), ficando atrás dos times de 1978 (ELO 2083) e 2014 (ELO 2109).

Metodologia

Como destacado acima, utilizamos resultados de cerca de 45 mil jogos extraídos do site ELO ratings. Neste conjunto de dados constam diversas informações referentes a cada partida, como data do jogo, nome e código dos países, número de gols marcados pelas seleções, local (país) do jogo e nome do campeonato, além, é claro, do rating ELO das respectivas seleções, calculado ao final de cada partida.

Para esta simulação decidimos não percorrer o perigoso caminho de prever o país que tem maior probabilidade de vencer a Copa do Mundo da Rússia. Ao invés disso, nos debruçamos em estimar probabilidades jogo-a-jogo, o que nos dá a composição dos grupos durante a primeira fase (a colocação de cada seleção ao final desta etapa) e os resultados das oitavas, quartas, semifinais e, por fim, as probabilidades para os dois times que disputam a final do campeonato. Nos próximos parágrafos esmiuçamos um pouco mais a metodologia. De antemão peço desculpas pelo trecho carregado de termos técnicos. Ao leitor que não interessar este tipo detalhamento, recomendamos pular direto para a seção de resultados.

Tivemos como objetivo principal gerar probabilidades de vitória, empate e derrota para cada jogo da Copa da Rússia. Para isso utilizamos a abordagem de regressão logística multinomial, pois desta forma pode-se ter mais de duas categorias em sua variável dependente.

Definimos, portanto, três classes para determinar as probabilidades de vitória do time A sobre o time B, do time B sobre o time A e de empate nessa partida, tendo como variáveis/features (i) o rating ELO corrente e suas defasagens, (ii) uma variável binária para descontar o “fator casa”, (iii) médias móveis de gols a favor e (iv) médias móveis de gols contra. Para agregar mais features às simulações, criamos transformações polinomiais de 2o e 3o grau dessas variáveis, totalizando cerca de 100 variáveis no modelo.

O próximo passo foi utilizar a técnica de validação cruzada k-fold para treinar e testar nosso modelo de Machine Learning com as variáveis mais importantes, selecionadas pelo método LASSO (Least Absolute Shrinkage and Selection Operator). Nesta etapa, o algoritmo divide os dados de entrada em subconjuntos de dados (chamados de folds); depois o modelo é treinado em todos os subconjuntos, exceto um (k-1), e avaliado neste subconjunto que não foi usado para o treinamento. Este processo é repetido k vezes, cada uma com um subconjunto diferente reservado para avaliação (e excluído do treinamento).

A figura abaixo mostra de forma mais clara como a metodologia de validação cruzada 4-fold foi aplicada ao nosso modelo, gerando subconjuntos de treinamento e avaliação. A primeira iteração usa os primeiros 25% dos dados para avaliação e os 75% restantes para treinamento. A iteração seguinte usa o segundo quartil (de 25% a 50%) para avaliação e os três quartis restantes para treinamento, e assim por diante. Na próxima seção apresentamos os resultados dessa simulação.

 Copa2018_01

Resultados

A tabela abaixo mostra as probabilidades de vitória, empate e derrota para cada partida durante a fase de grupos. A última coluna indica o time com maior probabilidade de sair vitorioso. Os dados estão ordenados por grupo.

Os resultados das simulações mostram que a Rússia deve se beneficiar do “fator-casa” no confronto contra a Arábia Saudita.  Além disso, o modelo sugere o empate como uma boa aposta nos confrontos entre Rússia e Egito, Peru e Dinamarca, Islândia e Croácia, dentre outros.

Com base nestas simulações, os primeiros e segundos colocados dos grupos seriam, respectivamente: Uruguai e Rússia (A), Espanha e Portugal (B), França e Peru (C), Argentina e Croácia (D), Brasil e Suíça (E), Alemanha e México (F), Inglaterra e Bélgica (G) e Colômbia e Polônia (H).

Copa2018_02

Partindo dos resultados da fase de grupos, os resultados simulados para as demais etapas são apresentados na figura abaixo. Como destacado no início deste artigo, Brasil e Alemanha devem disputar a partida final e as simulações apontam para ligeiro favoritismo do Brasil. Rumo ao Hexa!

Copa2018_03