O Varian pirou?

Durante meus anos de estudo na universidade, Microeconomia tornou-se uma de minhas matérias preferidas e os livros texto do Varian certamente ajudaram a despertar esse interesse.

https://en.wikipedia.org/wiki/Hal_Varian

Em 2002 ele foi trabalhar no Google como um consultor e de lá para cá começou a se inclinar para o “Lado Negro da Força”.

Em 2009, Hal Varian comentou que o emprego mais ‘sexy’ dos próximos 10 anos seriam os estatísticos:

I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?”

E em 2013, publicou um artigo que capturou minha atenção, seu título é:

Big Data: New Tricks for Econometrics

http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

E aí as coisas começaram a ficar mais interessantes…

O texto sobre Big Data e econometria tenta conciliar duas linhas de pensamento que até então andam separadas, que são a Econometria de um lado e os métodos computacionais de outro.

Para Varian, que está sentado em um trono de ouro no Google e possui centenas de engenheiros de software para fazer sua vontade, conectar Big Data e econometria ao mesmo tempo que propõe a utilização de novas ferramentas é trivial. Ele toca um sino e um estagiário traz um notebook em uma almofada vermelha para ele clicar ‘Run’.

A arrogância do texto é tanta que ele sugere logo nos primeiros parágrafos para que seus estudantes frequentem uma aula sobre “Machine Learning”:

…go to the computer science department and take a class in machine learning…

Resolvido…

 

O que ele sugere

No seu texto dedica basicamente 01 página as ferramentas para manipular big data (“01 Tools to manipulate big data“) e mostra em uma tabela as ferramentas que podem ser utilizadas. Resumidamente:

  • Hadoop File System: Um sistema de arquivos para ‘quebrar’ arquivos gigantescos em várias máquinas
  • Cassandra: Tabela de dados que vive no HDFS
  • Hadoop: Metodologia de ‘mapear’ os dados distribuídos em vários computadores e resumi-los fazendo calculos parciais (‘reduzidos’) em cada um deles
  • PIG: Uma linguagem específica para acessar esses dados
  • Hive, Drill, Impala: Funcionam de uma maneira semelhante ao PIG, mas são mais parecidas com os comandos SQL.

Fácil, não é? É só jogar meus arquivos nesse tal de HDFS e usar o PIG para fazer um resumo, o que pode dar errado?

A verdade é que não é tão fácil quanto parece. Existe um enorme buraco entre importar um arquivo de texto no Eviews versão estudante, Stata etc e utilizar as ferramentas sugeridas pelo Varian.

 

OK, então existem uma série de coisas para aprender, o que precisamos fazer?

Vou tentar fazer um breve resumo do que temos que aprender para poder começar a tentar trabalhar da forma proposta pelo Varian, eu estimo de 06 meses a 01 ano de estudo (dependendo da dedicação) para um estudante tornar-se proficiente em criar modelos que passem por todos os níveis da pilha, por isso o nível de sarcasmo dos próximos parágrafos é mais alto do que de costume neste blog.

Já ouviu falar do Linux? Essas coisas só funcionam bem nele, então a primeira coisa a fazer é montar um PC com o linux como sistema operacional.

Não tem um PC sobrando e não quer formatar sua máquina? Existem dois caminhos, ou você cria um dual boot para escolher qual o sistema operacional seu computador vai abrir ou cria uma máquina virtual usando, por exemplo o Virtualbox para rodar um linux dentro do windows. Essa última opção é mais lenta já que você fica com recursos compartilhados, mas é a melhor para quem está aprendendo.

Agora é só aprender a usar linux com linha de comando…

Depois, (felizmente) boa parte dessas tecnologias são open source o que é ótimo para aprender a usa-las, porém você vai eventualmente ter que instalar algumas coisas usando um negócio chamado Github, que de forma bem simplificada é um sistema usado para fazer controle de versões.

Então é só criar uma conta no github e aprender a usar por linha de comando, afinal você está no linux.

Obs: para o pessoal que está começando agora a escrever scripts no R, o github é de longe um dos melhores companheiros. Mesmo se você não trabalha em equipe, ter um controle das suas alterações e dos resultados intermediários da sua análise é algo fantástico.

Ótimo, agora temos um problema…as implementações do R ainda são limitadas e, principalmente para quem está aprendendo, não é uma boa seguir por modelos pre-estruturados como o Revolution Analytics ou Mapr, pois você fica amarrado. É possível até ser criativo, mas se vc quer a experiência completa, falta um pouco ainda para o R chegar lá.

Portanto você vai ser mais feliz usando o Python e veja só que legal, o linux geralmente vem com uma versão do Python instalada, então você não precisa instalar…

…Só aprender Python…( vale lembrar que hoje existem duas versões diferentes de Python rolando, então é bem comum você ter problemas com as versões)

Ótimo, agora é só instalar um Data serialization schema chamado AVRO, assim você pode mapear arquivos não estruturados.

Depois disso, instalar o PIG e aprender a usar…

Ótimo, agora estamos prontos para começar a brincar como o Varian…

 

Mais ou menos…

Com isso montamos a versão mais simples possível de uma pilha de tecnologia usando o Hadoop usando apenas 01 cluster (seu próprio PC), agora é possível começar a estudar como trabalhar com big data, mas para conseguir efetivamente tirar algum proveito você vai precisar escalar isso ou juntando vários PCs em um cluster ou usando algum serviço na nuvem como o Azure ou a Amazon, qualquer opção vai gerar custos altos para o estudante.

Em outras palavras, você se dedicou, estudou, estudou e estudou e no final das contas o resultado que você vai atingir usando sua aplicação caseira não é muito melhor do que abrir um CSV no R.

O verdadeiro ganho está em, quando surgir a necessidade, escalar essa aplicação na Nuvem e rodar o que for necessário de maneira escalável, portanto existe um bom valor em entender seu funcionamento. Essas aplicações na Nuvem costumam cobrar por horas de processamento, então você pode subir um cluster, processar o que precisa e desmontar, pagando alguns dólares por tudo.

 

Próximos passos

Essa é só a ponta do iceberg, tanto que o que descrevi acima é chamado de Hadoop 1.0, implementações mais modernas usam o Hadoop 2.0 que tem diversas melhorias na redundância dos dados, na forma como os clusters são gerenciados e trocentas formas diferentes de trabalhar os dados no HDFS.

hadoopstack

Na minha opinião, o Varian não pirou ( talvez só um pouco) , pois as tecnologias por ele sugeridas seriam reproduzíveis por um estudante em casa, o problema é a quantidade de trabalho e estudo que isso demanda.

Em um futuro próximo vejo que a melhor forma de conciliar a Econometria com Big Data seria o trabalho colaborativo entre pessoas com diferentes habilidades ou a utilização de pilhas de tecnologia pre-configuradas como o Cloudera, Revolution Analytics, Mapr, Horton, HDinsight e etc, mas ainda assim não nos livramos de ter que aprender uma série de novas tecnologias para fazer basicamente a mesma coisa que antigamente, só que maior…

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s