Saiba o que é Big Data
Big Data refere-se a uma enorme quantidade de informação digital que não pode ser processada ou analizada utilizando-se as técnicas tradicionais da computação. Existem estimativas de que por volta de 2015 o tráfego de dados pela internet atingirá cerca de 4.8 zetabytes por ano, isto é, 4.8 bilhões de terabytes. Isso representa um volume extraordinário de informação digital que se tornará inútil às organizações se não houver métodos para analisá-la em tempo hábil.
Atualmente é gerada uma quantidade exponencial de dados. Os serviços de e-commerce, cartões de crédito, grandes lojas de varejo estão criando monstruosos bancos de dados com tudo o que é gerado em suas transações de negócios. Da mesma forma organizações que trabalham com logística, serviços financeiros, planos e serviços de saúde e muitos outros setores capturam mais e mais dados a cada dia. As mídias sociais são outra fonte de captura de dados de proporções inimagináveis.
Outra fonte de dados que cresce a cada dia vem dos sistemas de reconhecimento de imagem. Também surgem a cada dia mais aparelhos interligados à Internet como automóveis, lavadoras, fornos de micro-ondas, geladeiras, etc, expandindo o que já é chamado de internet das coisas. Em áreas científicas específicas se observa o surgimento de dados oriundos de processamento de dados genéticos, nanotecnologia, biologia sintética e simulações de previsão do tempo. Todas essas fontes e outras que ainda surgirão, canalizarão uma quantidade de dados impensada para os discos rígidos de servidores ao redor do mundo.
Entretanto, o grande desafio é conseguir gerar valor agregado a toda essa informação. Para lograr êxito nesta empreitada, será necessário criar-se técnicas e conceitos que irão muito além da computação tradicional que conhecemos.
Para caracterizar o big data, Doug Laney introduziu o modelo dos três Vs: volume, velocidade e variedade.
O volume é o maior desafio do big data como, também, sua grande oportunidade. Isso porque armazenar, interligar e processar uma vasta quantidade de informmação digital oferece possibilidades tremendas para uma ampla variedade de atividades. Isso inclui predição de comportamento de consumidores, diagnósticos de doenças, planejamento de serviços de saúde além da criação de um modelo para nosso clima, que poderia ser utilizado com sucesso na previsão do tempo. No entanto, aplicações tradicionais utilizando bancos de dados relacionais se mostram inúteis para a realização de tal feito. Várias soluções em hardware também não se mostram escaláveis para a realização de uma tarefa dessa proporção.
A velocidade do big data também atinge níveis elevadíssimos. A velocidade com que a informação flui dentro das organizações está superando a capacidade do aparato de TI que elas possuem. Além do mais, os usuários desejam cada vez mais que todo tipo de dado lhes sejam disponibilizados em tempo real e a cada dia aumenta-se o número de dispositivos móveis. Aplicações de vídeo online, localização geográfica, realidade aumentada e outros tipos cada vez mais dependem de uma quantidade crescente de streams de dados de alta velocidade e para muitas empresas prover esse titpo de serviço representa um enorme desafio.
A variedade dos dados do big data projeta um processamento de dados cada vez mais diverso e denso. Lá se foram os dias em que os centro de dados tinham que processar apenas documentos, transações finenceiras, dados contábeis e arquivos pessoais. Atualmente temos fotografias, áudio, vídeo, modelos 3D, simulações complexas e dados de localização que se encontram cada vez mais empilhados em verdadeiros silos de dados corporativos. Grande quantidade das fontes desses big data se acham desestruturadas e, portanto, difíceis de serem categorizados mediante o uso de técnicas convencionais. Tudo isso significa que big data está na realidade em absoluta desordem, requerendo pré-processamentos complexos e limpeza de dados antes que qualquer análise de dados possa ser realizada.
Diante do desafio desses três fatores muitas organizações só têm um caminho: deletar dados mais antigos por não terem mais onde armazená-los ou como processá-los para gerar informação útil. Se imaginarmos as organizações como formas de vida processadoras de dados, então a maioria delas poderiam ser consideradas como formas primitivas de vida que sequer conseguem escanear e interpretar o oceano de dados no qual estão mergulhadas. Desta forma, simplesmente ignoram a maioria desses dados e não os processam, muitos deles contendo informações que lhes poderiam ser bastante úteis.
Um exemplo desse desperdício de informação que é ignorada são as obtidas pelos sistemas de cartão de crédito, cuja maioria nem são processadas. Vídeos cirúrgicos em hospitais são deletados em poucas semanas sem ao menos serem processados ou minerados o que poderia melhorar os cuidados com pacientes e ampliar a assistência à saúde pública.
Diante desse desafio, já existem técnicas para tratar essa quantidade de dados utilizando softwares livres e hardware especializado e de altíssimo custo, recursos esses que serão melhor detalhados em uma próxima postagem.
0 comentários:
Postar um comentário