2015-04-21

3) Foco na Eficácia

#bigdata #hadoop #spark

Particularmente nos serviços de tecnologia de informação, é valorizado o “foco na eficácia”. Em outras palavras, “quem entrega o serviço feito ganha o jogo”. A medida e o julgamento de quais meios e recursos que se usou para entregar o serviço – desde que lícitos, disponíveis, dentro do orçamento e do prazo de entrega – não são a prioridade. Essa abordagem permite uma analogia com um ditado popular. O que importa não é “matar a cobra e mostrar o pau”, mas “matar a cobra e mostrar a cobra morta”. O primeiro caso consiste em “focar no recurso” que se usou para resolver o problema, e o segundo consiste em “focar na eficácia”, isso é, na confirmação de que o serviço foi efetivo.

Big Data é uma forma inovadora de se implementar a computação paralela. A computação, por ser paralela, faz aumentar em tese o poder computacional efetivo. Com a arquitetura Big Data - para uma classe de problemas - a efetividade é particularmente grande. Nesses casos, com muitos computadores worker no cluster, tem-se um enorme poder efetivo. Ou seja, resolve-se problemas computacionais gigantescos em tempo relativamente pequeno.

O leitor já deu-se conta de o quão grande é o problema que a Google resolve no seu site de busca? A Google recebe uma string como parâmetro, e em menos de 1 segundo produz uma lista de links ordenados por peso, a partir de varrer de toda a Internet (Very Big Data), cujo conteúdo foi previamente vasculhado e armazenado localmente no data center da Google. O sofisticado algoritmo de busca leva em conta também volumosos dados pessoais de cada indivíduo, o que faz a busca ficar personalizada e portanto muito mais útil. Segundo o próprio Google, o número de buscas em 2015 anda em torno de 40 mil por segundo ou 3,5 bilhões por dia. A Google chegou tarde no cenário de buscadores, que em 1998 era dominado por Yahoo e Altavista. Como sabemos, o Google cresceu e hoje seu sucesso é supremo, tendo tornado-se líder dos buscadores com larga diferença em relação aos concorrentes. O produto da Google é altamente eficaz. Pouco importa os recursos que a Google aloca para resolver o problema.

Um uso para a computação são as técnicas de “aprendizado de máquina” (machine learning) para efetuar predições. O comércio é uma das muitas atividades que podem beneficiar-se dessas técnicas. Algumas perguntas que interessam ao comerciante incluem: “quais produtos esse cliente provavelmente quer comprar?”, ou “qual a chance de esse cliente ser um bom (ou mau) pagador?”, ou “quantas unidades desse produto eu devo ter em estoque para a próxima temporada de vendas?”, ou “qual o nível de satisfação para os clientes produzido por cada departamento da minha empresa?”, ou ainda “qual o valor do preço desse produto de forma a otimizar o lucro?”. Numa época de competição extrema, e com a possibilidade de uso intensivo de tecnologia de informação para a apoio a negócios, observa-se que grandes empresas de comércio estão investindo para ter boas respostas para perguntas como essas. O que importa para o comerciante é a eficácia do serviço de produzir as tais respostas (basicamente respostas corretas, e entregues no tempo que se espera). Isso é: “a cobra morta”. O método e os recursos que se usam para produzir as respostas é um problema técnico de quem se apresenta como fornecedor do serviço de produzir as respostas. Isso é: “o pau que mata a cobra”. Pensemos num comerciante de alto volume, tal como Amazon. Uma busca no Google mostra que em 2013 a Amazon vendia 426 itens por segundo. O volume de dados a serem processados por um comerciante com essas proporções é evidentemente bem alto, e algumas das perguntas acima tem que ser respondidas com a mesma velocidade das vendas. Trata-se de um grande problema computacional. O enorme poder computacional provido pela arquitetura Big Data é uma excelente alternativa tecnológica para eficazmente resolver o problema. Se o problema está pesado demais para um cluster Big Data com n workers, pode-se aumentar o valor de n. Em muitos casos isso é suficiente.

Existem atualmente empresas que vendem serviços computacionais relacionados a machine learning por meio de API. Essa é uma forma de pronta entrega do serviço, num formato que permite ser integrado ao fluxo de informação de um cliente. Para usar outra expressão popular, um serviço assim é do tipo que “entra porco e sai linguiça”. No exemplo do comerciante, isso seria o comerciante entrar com a base de dados e demais parâmetros, e usar o serviço de machine learning para obter diretamente as respostas o comerciante que deseja, com pouca importância em saber o método e recursos que foram usados para a obtenção das mesmas. É transparente para o comerciante-cliente saber o número de workers do cluster Big Data, assim como é transparente para os usuários e clientes do Google saber quantos computadores eles tem em seu data center. Só se observa a eficácia do serviço.

Em resumo: Força bruta funciona. Big Data é uma tecnologia prática e eficaz de se implementar força bruta. O foco certo é na eficácia.



--------------------------------------------------------------------------------
Sergio Barbosa Villas-Boas (sbVB), Ph.D.
software development, Big Data, cloud, mobile, IoT, HPC, optimization
sbvillasboas@gmail.com, sbvb@poli.ufrj.br
Skype: sbvbsbvb
http://www.sbVB.com.br
https://www.linkedin.com/in/sbvbsbvb
+55-21-97699-1337


Nenhum comentário:

Postar um comentário