Big Data

Big data é um tema bastante extenso. Em aula geralmente digo que “big data não existe”, no sentido de que para a maioria das pessoas (os “non-tech”) é muito mais conceitual – o que interessa é o big data aplicado, e a principal aplicação é inteligência artificial. Mas isto não é bem verdade, porque existe todo um mundo de big data que é super técnico, que envolve a infraestrutura, sistemas e operação de big data – ainda que isto seja um assunto para os “tech” 🙂

  • Vc pode dar uma olhada primeiro na Wikipedia.
  • Sobre big data e os 5Vs existem muitos artigos e textos de referência na internet, mas o ideal é adotar algum livro de referência. Eu tenho vários, que por questão de copyright não posso disponibilizar, e são todos em inglês. O único que comprei em português me arrependi (este aqui : apesar de ser um dos mais vendidos é muito básico). Para começar acho melhor o “Big Data For Dummies” (Amazon , em inglês).
  • Se precisa ser em português, este é um livro introdutório interessante, que tem uma boa tradução para o português (e o co-author é o kenneth Cookier): Mayer-Schonberger, Viktor, Big Data : como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana / Viktor Mayer-Schonberger, Kenneth Cukier; tradução Paulo Polzonoff Junior. – 1. ed. – Rio de Janeiro : Elsevier, 2013 . Ja utilizei referências desde livro mas em inglês. Está esgotado na Amazon mas sugiro tentar na estante virtual.
  • Para quem quer ter uma ideia de como big data afeta e afetará a sociedade este livro apresenta uma coletânia de artigos: Big Data for the Greater Good (Studies in Big Data) 1st ed. 2019 by Ali Emrouznejad e Vincent Charles (editores). Vale mais a pena pelo capítulo 3: Big Data: A Global Overview, por Celia Satiko Ishikiriyama e Carlos Francisco Simoes Gomes (professores brasileiros da UERJ e UFF, respectivamente). Pesquise bem pois este livro é muito caro!
  • Também está no material de ciência de dados este artigo de Hugh J. Watson (Association for Information Systems): “Tutorial: Big Data Analytics: Concepts, Technologies, and Applications”: este aqui é mais denso, mais técnico e mais acadêmico. Mas excelente. É um dos artigos base para a matéria de Análise Preditiva da FEA/USP. Ideal para um overview sobre big data, inclusive sobre NoSQL, Hadoop e Map Reduce.
  • Um podcast do Jovem Nerd que fala brevemente do assunto mas que é interessante.

Sobre a parte “tech” de big data:

  • Pegada mais “prática” sobre Hadoop e MapReduce, mas também abordando outros projetos da Apache Foundation, como Hive e Mahout. Para nerds como eu! Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools (English Edition) 1st ed. Edition, Deepak Vohra (Autor)
  • Aqui tem uma introdução breve da parte técnica, mas menciona além do Hadoop/Map Reduce também o Spark, inclusive com um framework utilizando python: Data Analytics with Hadoop, Benjamin Bengfort and Jenny Kim, 2016. Tenho a versão em inglês mas há uma tradução para o português.
  • Sobre usar Hadoop na nuvem, com exemplo específico sobre AWS: Moving Apache Hadoop to the Cloud – Harnessing Cloud Features and Flexibility for Hadoop Clusters, Bill Havanki.