2015-04-03

1) O Que é Big Data?

#bigdata #hadoop #spark

Muito se tem escrito sobre Big Data. Mas nesse mundo de Internet, muito do que se lê são cópias do que alguma outra pessoa escreveu, ou palpites que contém erros conceituais ou são obviedades. O assunto “Big Data” é ainda jovem, principalmente no Brasil. É merecido que se escreva algo didático e direto, por quem trabalha com o assunto, para que se melhore conhecimento sobre essa importante área do conhecimento.


A primeira coisa a se responder é: o que afinal é Big Data? Resposta: Big Data é uma arquitetura software para computação paralela (distribuída) que contém uma inovação de ruptura em relação a outras arquiteturas que se conhece para essa finalidade. Seja a seguinte metáfora: deseja-se mover uma carroça com uma carga. A carroça tradicionalmente era puxada por apenas 1 boi. Uma haste liga o boi à carroça. Quanto mais pesada a carga, mais difícil é de se puxar rapidamente a carroça. Sempre se pode reduzir a marcha (puxar mais lentamente e com mais força). Mas se reduzirmos muito a marcha, a lentidão com que se vai puxar a carroça pode tornar o serviço de mover a carroça insuportavelmente lento. O leitor possivelmente já entendeu que a carga da carroça é a carga computacional, e o boi é a CPU. Computação paralela é o uso de mais de um boi ao mesmo tempo para puxar a carroça. Big Data é um design inovador na haste que conecta os bois à carroça.


Antes do Big Data (isso é, com as tecnologias tradicionais de computação paralela tais como OpenMP, MPI, CUDA, TBB), a haste que conecta vários bois à carroça em muitos casos não permite que todos os bois efetivamente trabalhem para o transmitir sua força para puxar a carroça. O resultado é que muitos bois ficam ociosos, e não se consegue observar na conexão da haste com a carroça uma força equivalente a de um boi multiplicado por todos os bois usados. Com Big Data, aplicado a uma classe de problemas (não se pode aplicar Big Data para qualquer problema computacional !), consegue-se uma excelente escalabilidade. Na metáfora isso corresponde a dizer que posso colocar quantos bois existirem disponíveis, e graças ao design Big Data da haste, consegue-se que a força aplicada a carroça seja a força de um boi multiplicada pelo número de bois. Assim, alocando-se muitos bois conseguimos uma enorme força bruta, que move carroças muito pesadas.


Deve-se complementar definindo também o que Big Data NÃO é. Big Data não é a aplicação de um computador grandão e super poderoso para resolver um problema pesado de computação. Na metáfora isso seria usar bois super fortes. Big Data usa computadores comuns, com potência indistinguível dos que o leitor usa. São computadores ordinários. Além de não serem super fortes, os computadores também não são super confiáveis, isso é, a probabilidade de falha é a mesma dos computadores que o leitor usa. O design inovador da “haste Big Data” de puxar carroça garante robustez. No caso de um boi falhar, os demais seguem trabalhando e perde-se apenas a força do boi que falhou.


--------------------------------------------------------------------------------
Sergio Barbosa Villas-Boas (sbVB), Ph.D.
software development, Big Data, cloud, mobile, IoT, HPC, optimization 
sbvillasboas@gmail.com, sbvb@poli.ufrj.br
Skype: sbvbsbvb
http://www.sbVB.com.br
https://www.linkedin.com/in/sbvbsbvb
+55-21-97699-1337



Um comentário: