Never leave it in the hands of the judges

Como a grande maioria dos pre-adolescentes bobos nos anos 90 eu adorava assistir filmes de luta como “O grande dragão branco”, “Leão branco”, “Kickboxer”, você já entendeu a tendência…Todos os filmes do Van Damme, basicamente.

Porém, toda a graça acabou como um passe de mágica quando um colega e eu alugamos 3 fitas de video com os primeiros “The ultimate fighting championship” (UFC), era como se um sonho tivesse virado realidade já que era possível ver lutadores de diferentes estilos em combates totalmente livres de regras, era como “O grande dragão branco” com muito menos carisma.

Vinte e poucos anos se passaram desde aquele momento de descoberta e aquilo que era considerado uma barbárie ganhou regras, se profissionalizou e hoje é um dos esportes que mais cresce no mundo conseguindo chegar a um tamanho inimaginável pelos fans do esporte, sendo recentemente vendido por $4 bilhões de dólares.

Provavelmente assisti 90% de todos os eventos oficiais (os numerados), alguns UFC fight nights e até alguns “The ultimate fighters”, então é bem provável que eu tenha assistido alguns milhares de combates, porém em uma recente conversa com amigos, declarei que não tenho mais o interesse que tinha antes pelo esporte, exceto por algumas poucas lutas principais, o problema é que não consegui explicar o porque disso.

Os fãs citam diversos fatores, entre eles o principal sendo o excesso de exposição, já que é possível ver eventos praticamente todas as semanas, então não é mais um bem tão escasso como era antigamente, porém eu desconfio que não é só isso, minha opinião é que os eventos estão mais chatos* na média, que muitos lutadores lutam para não perder ao invés de ganhar e que a grande maioria de técnicas já está arbitrada, portanto é mais difícil surpreender o oponente e principalmente a audiência com uma técnica nova, como a revolução que o jiu-jitsu Brasileiro fez no esporte.

Primeiramente tenho que definir o que é um ‘evento chato’. Nocautes e Submissões são legais, são surpreendentes e inesperados, não existe uma forma melhor de definir o triunfo de um lutador sobre o outro. Em contraste, lutas que terminam por pontos são menos interessantes, pois elas terminam (na grande maioria dos casos) sem um vencedor claro e esse término é artificial, forçado e, pior ainda, são 15 ou 25 minutos em que nada aconteceu. Portanto, um evento como um todo pode ser definido como chato ou interessante baseado no número de KOs/Submissões sobre o número total de lutas.

Dada esta definição, vamos olhar para o comportamento dos eventos ao longo do tempo. No gráfico abaixo calculo a razão entre KO+Sub sobre o número total de lutas. Os eventos vão desde o primeiro UFC em 1993 até o Fight Night 83 em 2016-02-21, para um total de 3.569 lutas (os dados podem ser encontrados nesse link)

ko_sub

Nos primeiros eventos, até o final dos anos 90, as regras eram poucas (bem poucas) e as lutas não eram divididas em rounds, o que obviamente infla o número de finalizações de lutas, mas mesmo com uma grande variância entre os eventos, na média o número de finalizações caiu de 3 em cada 4 para pouco mais que 1 a cada 2 lutas.

Uma das explicações para esse número em declínio pode ser que o Jiu Jitsu foi assimilado pelos lutadores e atualmente finalizações por submissão são bem mais raras do que antigamente. Olhando para o gráfico abaixo é difícil tomar essa explicação como sendo a maior causa do problema, pois o o número de KOs em relação as Submissões aumentou um pouco ao longo do tempo, mas ainda 1 em cada 3 finalizações é devido a submissões.

ko_sub

Outra explicação pode ser dada com a introdução de categorias de peso mais baixas, principalmente depois da compra do WEC (World Extreme Cagefighting) a qual era a casa dos lutadores menores. O gráfico abaixo mostra o percentual de lutas finalizadas por classe de peso.

weight

Tem um tempo que comento com meus colegas que pouca coisa é mais legal que luta de pesos pesados no UFC, imagine duas pessoas que possuem mais músculos e gordura do que é humanamente aceitável, os quais possuem força para nocautear seus oponentes com apenas 1 soco e são incapazes de se esquivar tão bem quanto as categorias mais leves. Toda luta é uma surpresa, nenhum campeão dos pesos pesados conseguiu manter seu cinturão por muito tempo, é a roleta russa do UFC, por isso uma de minhas lutas preferidas foi a do Minotauro vs Bob Sapp em 2002. Ok, o Bob Sapp nem era um oponente tão respeitado assim, mas vale lembrar que sem o espetáculo não teríamos uma empresa tão grande quanto o UFC é hoje.

Acredito que consegui quantificar parte da minha insatisfação com o UFC atualmente, não é o excesso de eventos, mas sim o excesso de lutas em que nada acontece, com lutadores pequenos que ficam pulando por 25 minutos na tela incapazes de realizar qualquer movimento remotamente ameaçador. O UFC tem feito um bom trabalho em manter o evento interessante e os lutadores chatos são removidos dos eventos principais através da seleção natural, mas dificilmente retornaremos para os números do passado, não enquanto os lutadores estiverem lutando para não perder ao invés de lutando para ganhar.

Por fim, existe uma probabilidade de 29% de uma luta acabar no primeiro round com um KO ou Submissão, se isso não aconteceu, essa probabilidade cai para 23% de acontecer no segundo round, porém se a luta não terminou ainda, a probabilidade de uma finalização no terceiro round cai para 15,5% nos próximos rounds (caso a luta vá até 5), ou seja, se nada aconteceu no primeiro round, pode até ser que ocorra no segundo, caso nada ocorra, pode ser um bom motivo para desligar a televisão e ir dormir mais cedo, visitar o banheiro, buscar uma cerveja, abrir o facebook etc, pois é bem provável que nada aconteça mesmo…

Advertisements

Arborização e o preço dos imóveis em São Paulo

Parece meio óbvio, mas será que é possível verificar uma correlação positiva entre a arborização de um local e os preços dos imóveis?

Outro dia, ao ir almoçar sozinho debaixo de um belo sol ‘de rachar’, de camiseta preta e sem uma única sombra para me ajudar comecei a delirar divagar sobre os prós e contras daquele local de trabalho. Por conta do momento, a falta de arborização naquele local era um ‘contra’, mas em oposição um fator positivo era o custo do aluguel (entre outros).

Por sorte temos o site http://geosampa.prefeitura.sp.gov.br/ que disponibiliza dados gerais sobre a cidade, como arborização, por exemplo:

arvores

Com esses dados, agregados aos da prefeitura de tamanho das subprefeituras e distritos podemos calcular o número de árvores por km²

top10

Eu poderia parar a análise por aqui já que quem mora/conhece a cidade de São Paulo sabe que esses são os bairros mais caros, porém vale a pena dar uma olhada nos preço médio do m² e comparar com a arborização do local.

Usando dados do properatidata.cartodb.com de preço de m² por distrito é possível criar o gráfico abaixo:

modelo

Razoável…

Obviamente existem diversos fatores que contribuem para o preço de um imóvel e é bem possível que a arborização de um local tenha uma importância boa em um modelo para prever preços de imóveis, como um modelo mais complexo que criei há um tempo atrás…

https://dadosdadosdados.wordpress.com/2015/09/15/alugueis-em-sao-paulo-um-benchmark/

Analisando o ENEM

Nos últimos posts tenho explorado maneiras de se trabalhar com Big Data no R. Apesar de nova, a integração do R com o Apache Spark é bem razoável e a implementação do Hive funciona bem, apesar de alguns percalços ao criar grupos, travamentos aleatórios e algumas configurações pentelhas.


Como utilizei os dados do Enem para montar o post anterior, ao olhar o dicionário de dados acabei pensando em algumas perguntas que poderiam ser respondidas com dados, entre elas:

– qual a relação entre renda e a nota?
– qual a relação entre os anos de estudo dos pais e a nota do aluno?

Essas duas são bem básicas e sua resposta é esperada…

Outras perguntas tem a ver com o sexo e cor/raça dos alunos ajustadas pela renda.

Por fim é possível descobrir quais questões os alunos mais erraram/acertaram.

1 – Renda

Renda

O primeiro gráfico era esperado, quanto maior a renda da família, maior a média da nota.

2 – anos de estudo do pai

Anos_Estudo

Mesma coisa do primeiro gráfico, quanto mais anos de estudo tem o pai, maior a média da nota.

Obviamente, quanto mais anos de estudo, maior a renda, ou será que é o contrário?*

* – essa discussão vai ficar para uma próxima oportunidade

3 – sexo

Participei do Big Data week no final de outubro e somente um palestrante era mulher, que por coincidência apresentou um gráfico mostrando que 12% dos programadores Java são mulheres.

Esse número é bem baixo, mas não é muita novidade para o pessoal de exatas e até mesmo para o pessoal da Economia.

Minha hipótese era de que essa decisão é tomada na adolescência, levado talvez por uma deficiência nos cursos de matemática.

O gráfico abaixo mostra a distribuição das notas de matemática entre homens e mulheres. De fato a mediana das notas das mulheres foi menor mas nada tão alarmante que fosse capaz de desencorajar uma pessoa de fazer um curso.

sexo
4 – cor/raça

Na minha época de cursinho no Anglo Tamandaré (próximo o bairro da liberdade em São Paulo) tinha uma frase escrita em todas as cabines do banheiro masculino:

– “Enquanto você está cagando tem um Japonês estudando”

Finalmente, depois de tantos anos, vou poder colocar esse dito popular a teste!

Ao agregar os números por cor e raça não conseguimos observar nada demais, porém, quando controlamos pela renda, assumindo que são estes os alunos competindo pelas melhores vagas (ver gráfico 01) a mediana da nota dos alunos que se classificam como “amarelos” é a maior de todas, nada muito significativo, mas maior de qualquer forma.

asia
Talvez aqui seja interessante fazer um teste de hipóteses para verificar se a nota é significativamente maior.

5 – perguntas mais difíceis.

Por fim, existe um campo na base com todas as respostas de cada aluno, bem como o gabarito, cruzei um com o outro para pegar os acertos e somei isso para pegar o número de acertos por questão, a questão com menor número de acertos foi a mais difícil.

Seguem as questões mais difíceis, eu apaguei a resposta, mas se você tiver curiosidade o nome da figura é a resposta:
MT_E CN_C CL_B CH_C