Modelagem de Dados aplicada em ambiente de Data Warehouse

Olá, boa noite!

Seja bem-vindo a mais um post da sessão “Contando História com Dados“.

Nesta nova sessão, você vai encontrar posts relacionados a área de dados, destacando ao longo dos anos como este elemento atualmente reconhecimento como o mais importante em nossas vidas, conseguiu evoluir, conquistar o seu espaço, tornando-se cada vez mais vital para nossa evolução.

Em adicional, estarei compartilhando sempre que possível, um documento, apresentação ou resumo do conteúdo aqui compartilhado, o qual conterá o meu ponto de vista, conhecimento e aprendizados obtidos ao longo dos estudos realizados para elaboração do referido post.

Neste segundo post, destaco de forma breve conceitos iniciais relacionados a Modelagem de Dados aplicada em ambientes de Data Warehouse.

Introdução

A partir do surgimento de sistemas e aplicações voltados para as funções operacionais, tornaram o trabalho mais simples, pois, além de garantirem maior agilidade na execução de tarefas que antes requeriam um esforço muito grande, também minimizam possíveis erros humanos.

Além de vantagens citadas acima, essas aplicações trouxeram outras
indiretamente, como a capacidade de manter informações históricas de forma agrupada e possível de serem consultadas. Essas informações poderiam ser usadas por áreas estratégicas da empresa (marketing, alta gerência, etc) para auxiliar em tomadas de decisão.

Entretanto, agrupar ou categorizar estes conjuntos de informações, interpretá-las e tirar conclusões não é uma tarefa fácil. Torna-se necessário extrair de cada base de dados as informações que realmente interessam e padronizá-las para
que possam ser analisadas.

O processo de data warehousing busca automatizar o processo de extração e
padronização de dados, além de prover ao usuário maneiras mais fáceis e flexíveis de visualizar os dados. Um data warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão.

Geralmente os sistemas de data warehouse compreendem um conjunto de programas que extraem e tratam dados do ambiente operacional da empresa, um banco de dados que os mantém, e sistemas que fornecem estes dados aos seus usuários, dando suporte a consultas ad-hoc (consultas com acesso casual único e tratamento dos dados segundo parâmetros nunca antes utilizados), relatórios analíticos e à tomada de decisão.

O ambiente de Data Warehouse

Um data warehouse nada mais é do que um banco de dados contendo dados
extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de consulta e não para processamento de transações.

No geral, um data warehouse requer a consolidação de outros recursos de dados, além dos armazenados em banco de dados relacionais, como informações provenientes de planilhas eletrônicas, documentos textuais, etc.

Devemos considerar que um data warehouse não contém apenas dados resumidos, podendo conter também dados primitivos.

Deve-se prover ao usuário a capacidade de aprofundar-se num determinado tópico, investigando níveis de agregação menores ou mesmo o dado primitivo, permitindo também a geração de novas agregações ou correlações com outras variáveis.

No entanto, é difícil prever todos os possíveis dados resumidos que serão necessários: limitar o conteúdo de um data warehouse apenas a dados resumidos significa limitar os usuários apenas às consultas e análises que eles puderem antecipar frente a seus requisitos atuais, não deixando qualquer flexibilidade para novas necessidades.

O Data Warehouse pode ser considerado

Um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada:

Orientado a Assunto: A primeira característica de um Data Warehouse é que ele está orientado ao redor do principal assunto da organização. O percurso do dado orientado ao assunto está em contraste com a mais clássica das aplicações orientadas por processos/funções ao redor dos quais os sistemas operacionais mais antigos estão organizados.

Integrado: Facilmente o mais importante aspecto do ambiente de Data Warehouse é que dados criados dentro de um ambiente de Data Warehouse são integrados. SEMPRE. COM NENHUMA EXCEÇÃO.

Esta integração mostra-se de diferentes maneiras: na convenção consistente de nomes, na forma consistente das variáveis, na estrutura consistente de códigos, nos atributos físicos consistente dos dados, e assim por diante.

Não Volátil: sempre inserido, nunca excluído.

Variante no Tempo: posições históricas das atividades no tempo. O data warehouse possibilita a análise de grandes volumes de dados coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros.

Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados.

Os dados estão disponíveis somente para leitura e não podem ser alterados.

A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas. Os data warehouse surgiram como conceito acadêmico na década de 80. Com a evolução dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente.

Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações.

O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.

Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados, o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.

OLTP

Os usuários em suas funções do dia-a-dia são chamados OLTP (On Line Transaction Processing), e seu principal objetivo é executar o maior número de transações possíveis no menor tempo de processamento.

Para muitos, os sistemas OLTP são pouco flexíveis em relação à quantidade de relatórios e consultas, devido às limitações impostas por seu modelo de dados
e à linguagem SQL.

Em sistemas de suporte a decisão, onde o volume de dados costuma ser muito maior e as consultas altamente complexas, os requisitos são difíceis de determinar, o que culmina na necessidade de ferramentas altamente flexíveis e customizáveis.

OLAP

Os denominados Sistemas OLAP oferecem aos usuários de alto nível, dentre eles: gerentes e analistas de negócio, navegarem através dos dados da empresa com maior facilidade, proporcionando uma visão multidimensional desses dados.

Estes sistemas fornecem uma visão multidimensional dos dados não importando como estes dados estão fisicamente armazenados. Os dados são percebidos pelo usuário como um cubo multidimensional onde cada célula contém um valor ou medida.

Inmon (1999) apresenta uma definição bastante completa sobre o OLAP:

(…) é uma tecnologia de software que permite a analistas, gerentes e
executivos a obterem os dados de uma forma rápida, consistente e com acesso interativo para uma grande variedade de possíveis visões da informação na empresa. Mais sucintamente, OLAP é um conjunto de funcionalidades que tem, como principal objetivo, facilitar a análise multidimensional.

William H. Inmon

Cubo

Conhecido com uma estrutura multidimensional de dados que expressa a forma na qual os tipos de informações se relacionam entre si.

De forma genérica, ele deverá armazenar todas as informações relacionadas a um determinado assunto, de maneira a permitir que sejam montadas várias combinações entre elas, resultando na extração de várias visões sobre o mesmo tema.

Download

Referências

INMON, W.H. Como construir o Data Warehouse. Rio de Janeiro: Editora Campus, 1997. 388p.

INMON, W.H, WELCH, J. D., GLASSEY, K. L. Gerenciando Data Warehouse. São Paulo: Makron Books, 1999. 375p.

KIMBALL, Ralph. Data Warehouse Toolkit. São Paulo: Makron Books, 1996-b. 388 p.

KIMBALL, Ralph, REEVES, Laura, ROSS, Margy, THORNTHWAITE, Warren. TheIData Warehouse Lifecycle Toolkit – Expert Methods for Designing, Developing andIDeploying Data Warehouses. New York: John Wiley & Sons, Inc., 1998. 771 p.

KIMBALL, Ralph, ROSS, Margy. The Data Warehouse Toolkit (Segunda Edição). Rio de Janeiro: Editora Campus, 2002. 494 p.

Agradecimento

Obrigado por sua visita a mais este post do meu blog!

Espero que este post e todos os demais aqui compartilhados possam lhe ajudar ao longo das mais diversas necessidades da sua vida profissional e acadêmica.

Aproveite, para viver cada dia, observando como você pode transformá-la em uma nova história repleta de dados.

Um forte abraço.