O que é um data lake e quais são seus benefícios?

O que é um data lake e quais são seus benefícios?

A amplitude de significados do termo “big data” agrupa diversas soluções tecnológicas do quase infinito mundo dos dados. O data lake é um repositório centralizado que permite armazenar todos os formatos de dados em qualquer escala!

Desta forma ao utilizar um data lake, as organizações passam a ter um ambiente de inteligência da informação, para que o time de dados e BI, os encontrem, preparem e os analisem extraindo suas informações as tornando ativos de negócios.

Em resumo, os ativos são utilizados para conduzir decisões estratégicas, criar ou aprimorar produtos, reduzir custos, prevenir contra fraudes, aprimorar a gestão operacional, prever tendências, entre outras funcionalidades que a análise de dados pode proporcionar em diferentes setores.

O que é um Data Lake?

Em outras palavras, o data lake é um espaço estratégico para armazenamento e processamento de qualquer formato de dado do legado corporativo.

Portanto o objetivo principal de um data lake é tornar os dados organizacionais de diferentes fontes acessíveis a vários usuários finais, como analistas de negócios, engenheiros de dados, cientistas de dados, administradores de dados, gerentes de produto, executivos, entre outros. Eliminando o trabalho em silos.

Isto permite que essas personas aproveitem as informações geradas para melhorar o desempenho dos negócios, ou comercializar e trocar esses insights por algum benefício econômico.

Afinal, no data lake os dados são tratados e unificados, e o seu cruzamento cria correlações dentre as suas informações produzindo insights por meio de técnicas como mineração de dados, modelagem preditiva e inteligência artificial.

A princípio a maioria dos data lakes foram implantados em data centers locais, conhecidos como on-premises. Mas agora, conforme mostramos no vídeo, ao longo do tempo com o desenvolvimento de novas tecnologias no universo big data eles evoluiram para atender às necessidade de analises globais de dados, e já fazem parte das arquiteturas de dados em nuvem de muitas organizações.

Afinal, uma arquitetura em nuvem mantem a integridade do dado e ainda proporciona maior agilidade para que o possam ingerir, acessar e analisar com mais rapidez e precisão de qualquer lugar do mundo.

Com a arquitetura do data lake em nuvem reduzirmos custos diretos e de manuntenção de sistemas operacionais da infraestrutura de TI, e ainda desfrutamos de um sistema livre de bloqueios de provedores de tecnologia para facilitar sua portabilidade.

Data Lake vs Data Warehouse.

Antes de tudo, quando se ouve falar sobre um único local para reunir os dados que uma organização deseja analisar, imediatamente vem à mente um ambiente de data warehouse. No entanto, a arquitetura de um data warehouse não está preparada para oferecer todos os recursos possíveis oriundos da big data.

Então, qual a diferença entre Data Lake e Data Warehouse?

Ambos sevem como repositórios de dados, porém data warehouse é um banco de dados relacional indicado para salvamos dados estruturados que foram definidos e processados para uma finalidade específica. Como por exemplo o relatório de dados da análise do histórico financeiro da performance de produtos por um tempo.

Já o data lake armazena dados brutos – raw data- em qualquer formato, sendo responsabilidade dos analistas de dados atribuir sentido a eles. Além disso, eles se diferenciam em outras características como:

  • Agilidade: volume e velocidade.

Permitem o acúmulo de informações em um ritmo mais rápido, para aqueles que precisam de análises de filtros mais avançados permitindo a inserção de elementos de diferentes tipos e o cruzamento entre os conteúdos analisados.

  • Escalabilidade: novas possibilidades.

É possível realizar o dimensionamento da infraestrutura de dados sem ter preocupação com o crescimento do negócio, com uma infraestrutura elástica e inteligente em nuvem.

  • Colaboração: facilidade no acesso.

Independente da forma de entrada do dado no data lake, ele permite que a informação seja agrupada por temas e objetivos e serem compartilhadas com vários usuários.

Governança de dados e o data lake.

Para melhor eficiência do uso dos dados, é necessário criar um planejamento que abrange os objetivos estratégicos do negócio alinhado com políticas, processos e as tecnologias que farão parte da gestão do uso dos dados conhecido como governança de dados.

Visto que o data lake armazena grandes volumes de dados, a governança de dados é uma estrutura poderosa que coordena, orienta e define regras para criação, reuso e consumo dos dados com segurança e conformidade.

Neste sentido, para proteger a organização sobre os uso do seus ativos e garantir a eficácia e transparência de suas iniciativas é determinado:

  • Quem pode realizar ações;
  • Com quais informações e quando;
  • E em quais circunstâncias.
Quais são os benefícios em ter um data lake?

1 – Armazena e suporta o processamento de dados estruturados ( planilhas, arquivos CSV e bancos de dados), semiestruturados ( e-mail, arquivos em HTML, XML ou JSON e EDI) e não estruturados (arquivo de texto, imagens, áudios, dados das redes, etc) em um único ambiente.

2- Oferece funcionalidades que agilizam a rotina de arquitetos, engenheiros, administradores e cientistas de dados.

3- Fornecem insights mais rápidos por armazenar dados formatos de dados.

4- Redução de custos no ato de processar, limpar e armazenar dados em plataformas SaaS.

5- Potencializa crescimento por cruzar e reunir uma imensa base de dados oriunda de diferentes conectores ou API.

Analogamente o data lake é o cérebro da cultura data-driven, para que ele  traga resultados efetivos é preciso um alinhamento entre os departamentos da empresa, de forma que todos tenham uma só visão, alinhados aos KPI’s do negócio e com os seus recursos a área de análise de dados funcione mais integrada e fluida.

Implemente um data lake e passar a tomar decisões colegiadas que otimizem a performance do seu negócio!

Clique no botão do What’s App a sua direita e vamos conversar.

10 Algoritmos de Machine Learning que você precisa conhecer!

10 Algoritmos de Machine Learning que você precisa conhecer!

Os algoritmos de machine learning são considerados um aliado poderoso para fazer previsões ou sugestões calculadas com base em grandes volumes de dados que impactam nos resultados do negócio.

Não há dúvida que a Inteligência Artificial (apreendizado de máquina) está conquistando cada vez mais popularidade nos últimos anos, afinal tomar decisões baseada em dados com uso de plataformas de Big Data é uma estratégia eficiente já adotada por grandes players da indústria, varejo, financeiro, saúde e telecomunicações para aprimorar a eficiência comercial.

Como funcionam os algoritmos de machine learning?

Os algoritmos de Machine Learning podem ser divididos em 3 categorias: aprendizagem supervisionada, aprendizagem não supervisionada e aprendizado por reforço.

A aprendizagem supervisionada é útil nos casos em que uma propriedade (rótulo) está disponível para um determinado conjunto de dados (conjunto de treinamento). Ou seja, os dados de entradas e saídas são vetores conhecidos, por consequência, o algoritmo define como uma forma de prever o rótulo de saída com base na entrada das informações declaradas.

Sobretudo úteis para descobrir relacionamentos implícidos em análises não-rótulados (onde os itens não são pré-atribuídos), os algoritmos de aprendizado não supervisionados identificam semelhanças nos dados e reagem com base na presença ou ausência de tais semelhanças em cada novo dado.

Em contra partida o aprendizado por reforço está entre estes dois extremos, pois existe alguma forma de feedback disponível para cada passo ou ação preditiva, mas sem etiqueta precisa ou mensagem de erro. Existem três componentes principais: o agente, o ambiente e a forma de interação entes estes dois.

De certo um dos exemplos mais comuns de algoritmos de ML são os da Netflix, que fazem sugestões de filmes baseados naqueles que você assistiu no passado. E os da Amazon, que recomendam livros com base nos que você comprou anteriormente.

Apesar de existirem vários livros no tema, o livro clássico sobre machine learning “A Modern Approach”, de Peter Norvig, merece destaque por revelar tópicos importantes como: agentes inteligentes, solução de problemas por busca, pesquisa adversarial, teoria de probrobabilidade, sistemas multiagentes, IA social, filosofia, ética e o futuro da IA.

Para te introduzir no universo da machine learning apresentamos os 10 algoritmos que você precisa conhecer de aprendizagem supervisionada e não supervisionada.

Algoritmos de machine learning de aprendizagem supervisionada:

1. Árvores de Decisão.

Certamente utilizada em algoritmos de machine learning para técnicas de classificação e para regressão, uma árvore de decisão é uma ferramenta que utiliza um gráfico ou modelo de decisões e suas possíveis consequências, incluindo resultados de eventos fortuitos, custos de recursos e utilidade.

Assim como um fluxograma a árvore de decisão cria nós – decision nodes- que se ligam através de uma hierarquia, onde o nó mais valoroso é o nós raiz – root node – e os resultados apresentados são os nós folhas – leaf nodes.

Em suma o nó raiz é um dos atributos da base de dados e o nó folha é a classe ou valor que será gerado como resposta.

Certamente do ponto de vista da decisão de negócios, em um algortimo de machine learning uma árvore de decisão é o número mínimo de perguntas que devem ser respondidas para avaliar a probabilidade de tomar uma decisão correta. Como um método, ele permite abordar o problema de uma forma estruturada e sistemática para chegar a uma conclusão lógica.

2. Classificação Naïve Bayes.

Os classificadores Naïve Bayes são uma família de classificadores probabilísticos simples com base na aplicação Bayes – teorema com forte independência entre as características.

Por consequência o algoritmo é muito utilizado para resolver problemas de classificação probabilística. Visto que ele prevê a probabilidade de uma hipótese com um conhecimento prévio dependendo a probabilidade condicional.

Seguindo a equação – em que P (A| B) é a probabilidade posterior, P (B|A) é a probabilidade, P (A) é a probabilidade prévia e P (B) é preditor de probabilidade prévia.

 Alguns exemplos reais de suas aplicabilidades no dia a dia são:

  • Para marcar um e-mail como spam ou não spam.
  • Classificar um artigo de notícias sobre tecnologia, política ou esportes com base na frequência das palavras.
  • Verificar um pedaço de texto expressando emoções positivas ou negativas.
  • Usado para software de reconhecimento facial.
  • Regularmente utilizado no processamento de linguagem neural em diagnósticos médicos

3. Regressão Linear de Mínimos Quadrados.

Se você conhece estatísticas, provavelmente já ouviu falar de regressão linear antes. Linear Least Squares é um método para a realização de regressão linear, que usa de um conjunto estatístico incluindo variantes para resíduos ordinários (não ponderados), ponderados e generalizados (correlacionados).

Você pode pensar em regressão linear como a tarefa de encaixar uma linha reta através de um conjunto de pontos.

Posto que existem várias estratégias possíveis para isso, e a de “mínimos quadrados comuns”, se desenha uma linha e, em seguida, para cada um dos pontos de dados, mede a distância vertical entre o ponto e a linha e os soma. A linha ajustada seria aquela em que esta soma de distâncias é a menor possível.

Em suma linear se refere ao tipo de modelo que está sendo usado para ajustar os dados, enquanto mínimos quadrados refere-se ao tipo de métrica de erro que está sendo minimizado.

4. Regressão logística.

A regressão logística é uma poderosa forma estatística de modelar um resultado binomial com uma ou mais variáveis explicativas. Ela mede a relação entre a variável dependente categórica e uma ou mais variáveis independentes, estimando as probabilidades usando uma função logística, que é a distribuição logística cumulativa.  

Em geral, as regressões podem ser usadas em aplicações reais, tais como:

  • Pontuação de crédito.
  • Medir as taxas de sucesso das campanhas de marketing.
  • Prever as receitas de um determinado produto.
  • Haverá um terremoto em um determinado dia?

5. Support Vector Machine.

SVM – é um algoritmo binário usado para classificação, regressão e detecção de outliers muito utilizado com sucesso para reconhecimento de imagens, diagnósticos médicos e análises de textos.

O objetivo do algoritmo da máquina de vetores de suporte é encontrar um hiperplano em um espaço N-dimensional (N – o número de recursos) que classifica distintamente os pontos de dados.

Dado um conjunto de pontos de 2 tipos em lugar N dimensional, SVM gera um hiperplano (N – 1) dimensional para separar esses pontos em 2 grupos. Digamos que você tem alguns pontos de 2 tipos em um papel que são linearmente separáveis. SVM encontrará uma linha reta que separa esses pontos em 2 tipos e situados o mais longe possível de todos esses pontos.

Em termos de escala, alguns dos maiores problemas que foram resolvidos usando SVMs (com implementações adequadamente modificadas) são publicidades em display, reconhecimento de site de splice humano, detecção de gênero baseada em imagem, classificação de imagem em grande escala etc.

6. Ensemble Methods.

São algoritmos de aprendizagem que constroem um conjunto de classificadores e, em seguida, classificam novos pontos de dados, tendo um ponderado voto de suas previsões.

O método de conjunto original é a média bayesiana, mas os algoritmos mais recentes incluem codificação de saída, correção de erros, bagging e reforço.

Então, como funcionam os métodos de conjunto e por que eles são superiores aos modelos individuais?

  • Eles reduzem a variância: a opinião agregada de um monte de modelos é menos barulhenta do que a opinião única de um dos modelos. Em finanças, isso é chamado diversificação – uma carteira mista de muitas ações será muito menos variável do que apenas um dos estoques sozinho. É por isso que seus modelos serão melhores com mais pontos de dados do que menos.
  • É improvável que eles se sobrepõem: se você tem modelos individuais que não se sobrepõem e está combinando as previsões de cada modelo de uma maneira simples (média, média ponderada, regressão logística), então não há espaço para sobrecarga.

Algoritmos de machine learning que você precisa conhecer de aprendizagem sem supervisão:

7. Algoritmos de Agrupamento (Clustering).

 O agrupamento  é a tarefa de agrupar um conjunto de objetos de tal forma que os do mesmo grupo (cluster) são mais semelhantes uns aos outros do que aqueles em outros grupos. Com isto é possível descobrir semelhanças e desigualdades entre os padrões dos cluters e consequentemente produzir conclusões úteis ao seu respeito.

Cada algoritmo de agrupamento é diferente, e aqui estão alguns deles:

  • Baseados em Centroid, conectividade e densidade.
  • Probabilístico.
  • Redução da Dimensionalidade.
  • Redes Neurais / Aprendizagem Profunda.

8. Decomposição em valores singulares.

A decomposição de valores singulares ajuda a reduzir conjuntos de dados contendo muitos valores. Na álgebra linear, a SVD é uma fatoração de uma matriz complexa real, na qual para uma dada matriz m* n M, existe uma decomposição tal que M = UΣV, onde U e V são matrizes unitárias e Σ é uma matriz diagonal.

PCA – based anomaly detector- resolve o problema analisando os recursos disponíveis para determinar o que constitui uma classe “normal”. O módulo então aplica métricas de distância para identificar casos que representam anomalias. Essa abordagem permite treinar um modelo usando dados desequilibrados existentes.

Na visão computacional, os algoritmos de reconhecimento de primeira face usaram PCA e SVD para representar faces como uma combinação linear de “eigenfaces”, fazer redução de dimensionalidade e, em seguida, corresponder faces a identidades através de métodos simples. Embora os métodos modernos sejam muito mais sofisticados, muitos ainda dependem de técnicas semelhantes.

9. Análise de Componentes Principais.

PCA é um procedimento estatístico que usa uma transformação ortogonal para converter um conjunto de observações de variáveis, possivelmente correlacionadas em um conjunto de valores de variáveis linearmente não correlacionadas, chamadas componentes principais.

Algumas das aplicações do PCA incluem compressão, simplificação de dados para facilitar o aprendizado e visualização. Observe que o conhecimento do domínio é muito importante ao escolher se deseja avançar com PCA ou não. Não é adequado nos casos em que os dados são ruidosos (todos os componentes da PCA têm uma variação bastante alta).

10. Análise de componentes independentes.

ICA é uma técnica estatística para revelar fatores ocultos que estão subjacentes a conjuntos de variáveis aleatórias, medições ou sinais.

Em resumo ICA define um modelo generativo para os dados multivariados observados, que normalmente é dado como um grande banco de dados de amostras. No modelo, as variáveis de dados são assumidas como misturas lineares de algumas variáveis latentes desconhecidas, e o sistema de mistura também é desconhecido.

As variáveis latentes são consideradas não-gaussianas e mutuamente independentes, e são chamadas de componentes independentes dos dados observados.    

A ICA está relacionada ao PCA, mas é uma técnica muito mais poderosa, capaz de encontrar os fatores subjacentes das fontes quando esses métodos clássicos falham completamente. Suas aplicações incluem imagens digitais, bancos de dados de documentos, indicadores econômicos e medições psicométricas. Agora siga em frente e use sua compreensão de algoritmos para criar aplicações de aprendizagem de máquina que possibilitam melhores experiências para as pessoas em todos os lugares.

Quer saber mais sobre data Science, mergulhar no ecossistema de big data?

Fique atento aos cursos gratuitos da Semantix Academy.

Cursos: Big Data Foundations, Data Administration, Data Science, Big Data Business, Big Data Engineer entre outros.

Inicie sua jornada de dados com a Semantix Data Platform!

Estratégia de dados: como democratizar a Big Data!

Estratégia de dados: como democratizar a Big Data!

O Diretor de Marketing e Head of Retail Data Products, João Paulo Tavares da Silva concedeu uma entrevista para a revista da associação IBEF – Instituto Brasileiro de Executivo e Finanças, com o objetivo de desmistificar alguns dos anseios em torno da adoção de de big data para a tomada de decisões baseadas em dados. Afinal, o desenvolvimento de uma estratégia de dados é vital para a democratização big data proporcionando mais organização e evolução para as empresas.

“Nosso propósito é acelerar e impactar positivamente bilhões de vidas com dados” – João Paulo. Esse foi o recado dado pelo diretor referindo-se ao desenvolvimento do uso de dados para a melhoria e evolução do negócio de muitas empresas, que conseguirão ter menos riscos e mais qualidade como a Big Data.

estrategia-de-dados-a-democratizacao-da-big-data

De acordo com João Paulo, o dado é o “novo petróleo”, e ele nós desafia nos questionarmos o que fariam com um barril de petróleo. “Ele bruto não traz valor para toda a população, mas ele refinado sim”. Então, a partir dessa provocação, começamos a interpretar o mercado e fazer a correlação de como tirar o melhor do dado”, disse.

Quais são os passos que devem ser planejados antes da adoção da big data como base estratégica?

Quando se fala de uma estratégia de dados, envolve-se três “atores”: tecnologia, pessoas e dados. Somando governança, gestão de demanda e arquitetura, o ciclo de vida de dados se torna sustentável, com ganho de maturidade e confiança.

“O primeiro passo da empresa deve ser a governança de dados, ter o domínio sobre seu dado, saber onde ele está da melhor forma possível”, alertou JP.

Só para exemplificar melhor o entendimento e fazendo paralelos: governar o dado é como trabalhar com a reciclagem, ou seja, separar papel com papel, plástico com plástico, metal com metal. Assim, será possível saber o valor de cada um dos dados, em seus respectivos contextos. As empresas não precisam ter muito volume de dados, e sim que eles tenham qualidade e sejam estruturados.

Na estratégia de dados, qual é a importância da qualidade dos dados?

De fato, um dado bom na origem garante muita mais fluidez no trabalho quando do início de uma estratégia de monetização de dados.
E para saber se o dado é bom, indico o uso de seis indicadores principais: completude, consistência, conformidade, unicidade, atualidade e acurácia. E aponto que as empresas precisam ter ciência, em níveis de qualidade, saber quais dados são muito bons e quais são muito ruins, para então ter a melhoria do processo como um todo.

De acordo com o especialista, para começar a organizar uma estratégia de dados, a empresa deve ter bases de dados (Excel, e-mail, celular, PDFs e tudo que contiver dados que são necessários para o negócio). “A partir daí vem a gestão de acessos, onde vou colocar cada coisa, definindo-se os meta-dados (nichos de dados), os domínios (onde vou armazenar), os responsáveis por cada um e os selos de qualidade. E então passa-se por algumas camadas: técnica, comportamental e de reuso, que é o ciclo de vida do dado”.

Depois que o processo começa a ser trabalhado dentro do “data lake”
(banco de dados), que consiste em estruturar e criar as políticas de dados. Como boas práticas, indicou o catálogo de dados, o monitoramento das bases, a definição de forma clara dos responsáveis por cada nicho de dados, a qualidade desses dados, a taxonomia e a composição e capacitação efetiva do data lake.

Após, avança-se para uma camada de distribuição e, por fim, para a da extração, que são os modelos de inteligência artificial, de dados, processos operacionais e toda a parte analítica, que estrutura o uso de dados para a tomada de decisões futuras.

A experiência da Semantix na execução da estratégia de dados.

Marcelo Borges apresentou aos convidados do IBEF o Semantix Data Platform, e como o produto acelera a jornada das empresas, com uma plataforma unificada de dados que possibilita fazer tudo dentro dela, com simplicidade e escalonamento para clientes de diferentes portes.

O que Marcos chamou de um novo ecossistema de dados, com estrutura em nuvem, definição dos data sources para trazer para a plataforma, tendo objetivos bem definidos com o data lake e uma maturidade da parte de ciência de dados.

“Temos mais de 300 conectores prontos que facilitam trazer os dados para a criação do data lake e também tecnologia para criar novos conectores e trazer essas bases de uma maneira muito simples”, relatou Marcos, mostrando que o intuito é a aceleração e simplificação dessa jornada, democratizando o acesso à inteligência artificial e ao Big Data, para que empresas médias e em fase de crescimento possam trazer essas
tecnologias sem ter que desembolsar milhões em infraestrutura.

Em suma, para o desenvolvimento da estratégia de dados João Paulo diz: A primeira coisa que as empresas deveriam se perguntar, na prática, é: o que eu quero resolver com um Big Data?

“Quando falamos de ecossistema tecnológico para dados, isso é o meio. Podemos investir milhões e construir meios muito bons que permitam direcionar necessidades de negócios, mas na prática o primeiro passo é saber quais problemas atacar”, concluiu.

Quer conversar sobre estratégia de dados e implementar a cultura data-driven?

FALE COM UM ESPECIALISTA!

Enviar Mensagem
Fale com a Semantix pelo WhatsApp!