Durante anos, impulsionados por tecnologias como o Apache Hadoop, as organizações têm procurado construir data lakes – plataformas de gerenciamento de dados que permitam armazenar todos os seus dados em seu formato nativo. Esses repositórios massivos prometem quebrar os silos de informações da empresa, concentrando em um único local acessível a toda organização todos os dados, estruturados e não estruturados, em sua forma original, para que possam ser mionerados e analisados.
A diferença em relação ao Data Warehouse como estamos acostumados é que no Data Lake os modelos de dados (ou schemas) não são impostos up-front, mas emergem à medida que trabalhamos com os próprios dados. No Data Lake o conceito é de “late binding” ou “schema on read”, quando o schema é construído em tempo de query.
Para simplificar, um Data Lake pode ser imaginado como uma imenso grid, com bilhões de linhas e colunas. Mas ao contrário de uma planilha estruturada, cada célula deste grid pode conter um dado diferente. Assim uma célula pode conter um documento, outra uma fotografia e uma terceira um parágrafo ou uma única palavra de um texto. Outra contém um tuite ou um post do Facebook. Não importa de onde o dado veio. Ele é apenas armazenado em uma célula. Em outras palavras, um Data Lake é um Data Warehouse não estruturado onde dados de diversas fontes são armazenados.
O colunista da CIO, Cezar Taurion, costuma dizer que o segredo do Data Lake é o conceito de metadado (dado sobre dado). Cada
dado inserido, ou como alguns dizem, ingerido, no Data Lake possui um
metadado de modo a identifica-lo e facilitar sua localização e posterior
análise. Como fazer isso? Colocar diversas tags em cada dado, de modo
que podemos localizar todos os dados de um determinado conjunto de tags.
Uma vantagem do conceito de tagging é que novos dados, de novas fontes,
podem ser inseridos e uma vez “tageados” passam a ser conectados aos
que já estão armazenados. Não há necessidade de reestruturações e
redesenho dos modelos de dados.
Acontece que, na visão de Avi Perez, especialista em software de inteligência de negócios (BI) Pyramid Analytics muitos clientes e prospects têm deixado seus data lakes se deteriorarem, ao ponto de parecerem mais com pântanos de dados – repositórios lotados completamente inacessíveis aos usuários finais.
“Bancos de dados são realmente caros”, diz Perez. “O lago de dados responde fundamentalmente a esse problema. Tanto eles, quanto todas as grandes iniciativas de dados provêm de uma pressão do mercado para ter geradores de dados do mundo real cuspindo os dados necessários aos negócios que devemos armazenar”. Mas, embora algumas das empresas mais bem sucedidas do mundo tenham construído negócios em torno de seus lagos de dados (o Google é um excelente exemplo), muitos outros estão coletando dados sem qualquer maneira clara de obter valor com isso.
“Eles apenas coletam lama”, diz Perez.”Na prática, estão coletando muito lixo, que será abandonado”.
Para evitar que isso aconteça na sua empresa, Perez recomenda a adoção de três princípios.
1. Colete menos dados, pelo menos no início
Perez diz que um dos maiores erros que as organizações cometem é coletar dados demais, simplesmente porque eles podem ser coletados. Considere seu smartphone. Se você possui um, é provável que tenha centenas ou mais fotos armazenadas nele.
“Você termina com um bilhão de fotos em seu telefone e, no entanto, 99 por cento delas são lixo, provavelmente, que você iria se livrar”, diz ele. “Tornou-se tão fácil tirar fotos com o seu telefone, que o acúmulo é inevitável e a limpeza necessária ficar sempre para depois. Na prática isso equivlae à empresa que está coletando uma enorme quantidade de Informações, sem saber como usá-las efetivamente “.
Armazenar dados em Hadoop é barato o suficiente para que seja considerado livre. Mas o grande volume de dados que se acumula pode dificultar o acesso aos dados que podem fornecer informações valiosas.
“Acho que a maneira de evitá-lo é, de fato, trabalhar com a presunção de que, apenas porque é barato coletar os dados, isso não torna barato usá-los. Na verdade, pode ser bastante caro. Portanto, não colete informações de qualquer lugar e o tempo todo. Mantenha-se focado na coleta dos dados que realmente importam para o negócio. E, para isso, é preciso ter um plano específico sobre como vai minerá-los.”
2. Adote uma estratégia de aprendizado de máquinas
Mesmo com um conjunto de dados focado, a obtenção de informações a partir deles requer automação.
“Você precisa de um sistema automatizado para limpar o lago”, diz Perez. “AI, aprendizado de máquina, aprendizado profundo, qualquer termo que você queira usar, é a solução mágica para navegar através de suas informações. A maneira mais fácil de obter o valor de seu enorme lago de dados é procurar ter uma técnica para saber como você vai aprender com isso “.
Para começar, diz Perez, escolha um conjunto de dados que você conhece e selecione uma técnica de aprendizado de máquina que possa ajudá-lo a extrair dele os insights desejados. Você provavelmente terá que adquirir novas habilidades para fazê-lo efetivamente, seja através de treinamento ou contratação.
“O aprendizado de máquina não é trivial”, diz ele. “Você precisa de habilidades muito específicas”.
3. Determine o problema comercial que você está tentando resolver
Você precisa começar com uma visão clara do problema de negócios que você está tentando resolver. Com um objetivo em mente, deve ser relativamente fácil definir os dados que devem ser coletados e a melhor técnica de aprendizado de máquina para obter informações sobre esses dados.
Por exemplo, imagine que você é um varejista. Você pode decidir entender o tipo de cliente que entra em suas lojas. Você pode capturar fotografias de clientes que entram em suas lojas e, em seguida, uma convoluted neural network (CNN) – um tipo de rede neural de aprendizado profundo que se destaca em problemas de visão computacional – para processar as imagens. A CNN pode determinar se uma imagem individual é masculina ou feminina, uma criança ou um adulto, uma criança e um adulto, uma pessoa jovem e uma pessoa idosa, etc.
Depois de ter construído uma capacidade com uma iniciativa comercial em mente, muitas vezes é possível iterar sobre essa capacidade para fornecer ao negócio soluções ainda mais específicas. Por exemplo, uma vez que você consegue identificar quem está entrando em suas lojas, você pode aplicar essa mesma capacidade para determinar quem está passando pela área de cosméticos e pelo caixa.
É preciso ter sempre em mente que os lagos de dados são recursos para toda a organização, não apenas para a TI. Um resultante do Data Lake é que possibilita aos usuários fazerem suas
buscas diretamente, sem necessidade de intervenções do setor de TI. Este
continua responsável pela segurança dos dados armazenados, mas pode
deixar aos usuários de negócio, que entendem do próprio negócio, a
tarefa de gerar insights e pensar novas perguntas.
Portanto, todas as partes interessadas devem estar envolvidas no planejamento de projetos de lago de dados. “É central para a arquitetura de Big Data da empresa e, portanto, não pode ser implementada de forma isolada”, diz Ashish Nadkarni, analista da IDC.
Além dos gerentes de TI, um projeto de lago de dados deve envolver líderes empresariais e usuários. Os especialistas em armazenamento também precisam desempenhar um papel fundamental. “No final do dia”, diz Nadkarni, “é uma plataforma de armazenamento e, portanto, [as empresas] devem envolver a equipe de armazenamento em sua concepção e implementação”.
O valor comercial de um data lake tem muito pouco a ver com as tecnologias subjacentes escolhidas. “Em vez disso, o valor do negócio é derivado das habilidades de ciência de dados que você pode aplicar ao lago”, diz Nick Heudecker, analista do Gartner.
“Os lagos de dados não são um substituto para as plataformas ou infraestrutura analíticas existentes. Em vez disso, eles complementam os esforços existentes e apoiam a descoberta de novas questões”. Uma vez que essas questões são descobertas, ediz, você então “otimiza” as respostas. “Otimizar pode significar sair do lago e entrar em data marts ou data warehouses”, diz Heudecker.
Portanto, antes de mergulhar no lago, estude mais o assunto e defina
claramente sua estratégia para Data Lake e se faz sentido para sua
empresa.
A Pure Storage está redefinindo sua estratégia de mercado com uma abordagem que abandona o…
A inteligência artificial (IA) consolidou-se como a principal catalisadora de novos unicórnios no cenário global…
À primeira vista, não parece grande coisa. Mas foi na pequena cidade de Pornainen, na…
O processo de transição previsto na reforma tributária terá ao menos um impacto negativo sobre…
O que antes parecia uma aliança estratégica sólida começa a mostrar rachaduras. Segundo reportagem do…
O Departamento de Defesa dos Estados Unidos firmou um contrato de US$ 200 milhões com…