ETL vs Preparação de Dados
- PLD Expert
- 10 de mar. de 2022
- 5 min de leitura

As tecnologias de extração, transformação e carregamento (ETL), gerenciadas exclusivamente pela TI, eram até recentemente a principal ferramenta usada para combinar dados de várias fontes e, assim, fornecer a capacidade de conduzir decisões de negócios importantes para as organizações. Mas com o advento da preparação de dados de autoatendimento, usuários de negócios e especialistas no assunto podem encontrar soluções por conta própria.
"Em algumas organizações, espera-se que cada engenheiro de dados/recurso de TI dê suporte a mais de centenas de usuários de negócios ou especialistas, criando um gargalo que pode atrasar a chegada de informações críticas de negócios", disse Farnaz Erfan, Isso significa que o ETL está se tornando obsoleto ? Ou existem casos de uso para ambos? Erfan discutiu as semelhanças e diferenças entre ETL e preparação de dados em uma entrevista recente ao DATAVERSITY®.
Semelhanças
Muitas pessoas assumem que ETL e preparação de dados são a mesma coisa porque conceitualmente são muito semelhantes e ambos resolvem o mesmo problema. Dados fora do formato esperado nunca estão prontos para análise ou aprendizado de máquina, e ambas as ferramentas transformam os dados de uma maneira que os aproxima de uma única fonte de verdade para usos como análise ou aprendizado de máquina.
Diferenças
Onde o ETL e a preparação de dados diferem está na complexidade do paradigma, no tipo de preparação necessária e no usuário, e essas diferenças determinam o tipo de casos de uso.
1. O usuário
As ferramentas ETL foram criadas há mais de 25 anos para usuários técnicos de TI, e as ferramentas de preparação de dados são voltadas para usuários empresariais modernos. "Pode ser um analista, um gerente de operações de vendas, um gerente de marketing, muitas pessoas diferentes dentro da linha de negócios podem usar essas ferramentas", disse Erfan.
Os fornecedores que oferecem ferramentas de preparação de dados tendem a seguir uma forma visual de apresentação de dados, semelhante a uma planilha do Excel, onde os usuários podem ver os dados no centro de sua área de trabalho. Isso permite que usuários não técnicos investiguem problemas de qualidade de dados, preparem dados, validem dados e vejam como os valores dos dados mudam conforme regras ou condições diferentes são aplicadas.
2. O paradigma
O ETL é baseado em um conjunto predeterminado de regras e fluxos de trabalho, problemas em potencial, como erros de ortografia ou caracteres extras, devem ser antecipados para que as regras sobre como lidar com esses problemas possam ser incorporadas ao fluxo de trabalho de ponta a ponta. Por outro lado, uma ferramenta de preparação de dados que usa algoritmos integrados é capaz de descobrir e investigar os dados à medida que passam pelo fluxo de trabalho. “Por exemplo, algoritmos baseados em aprendizado de máquina ou processamento de linguagem natural podem reconhecer coisas que são escritas de maneira diferente, mas são realmente a mesma coisa”.
Ele deu o exemplo de uma cidade chamada "St. Louis", e como ela pode ser inserida de várias maneiras, ou pode haver várias cidades com o mesmo nome escrito de forma diferente. Em um fluxo de trabalho ETL, as regras para encontrar cada variação específica devem ser programado com antecedência, e variações não programadas são ignoradas Uma ferramenta de preparação de dados pode encontrar diferenças ortográficas sem ajuda, para que o usuário não precise antecipar todas as variações possíveis A ferramenta pode solicitar uma decisão sobre cada variação diferente no nome desta cidade, o que fornece uma oportunidade para melhorar os dados antes de serem usados, disse ele.
"Essa é uma grande mudança em termos de qualidade dos dados que saem dele, além de aumentar a velocidade com que posso acessar meus dados". "Compare isso com uma ferramenta ETL que exige que o usuário predetermine as regras que devem ser aplicadas e adivinhe como elas podem ter sido escritas."
3. Complexidade de dados
Erfan, que começou sua carreira no espaço tradicional de ETL/gerenciamento de dados, disse que a maior parte do foco do ETL permanece em fontes de dados relacionais, porque seus pontos fortes estão no carregamento em massa e na transformação de tabelas. e fontes de dados relacionais, bem como com CRM, Salesforce e aplicativos de marketing.
A preparação de dados permanece robusta tanto de forma relacional quanto para tipos de dados mais complexos, como JSON ou XML, onde há estruturas de dados aninhadas. Uma ferramenta de preparação de dados nivela os dados em um formato tabular, retornando a esse paradigma do Excel mais fácil para usuários não técnicos entenderem. "Você pode ver claramente o conteúdo completo dos dados para prepará-los para análise, em vez de tentar entendê-los em uma estrutura aninhada", disse ele.
Benefícios das ferramentas de preparação de dados
O espaço ETL requer padrões e uma estrutura bem definida, ou modelo multidimensional para publicação. As alterações na estrutura de dados exigem uma abordagem de "recomeçar" para incorporar transformações, e os dados devem ser republicados, resultando em um processo muito mais longo. Por outro lado, usando uma solução de preparação de dados, você pode processar os dados em sua totalidade. Os algoritmos de aprendizado de máquina lidam com mais dados livremente e, portanto, as iterações podem ser feitas rapidamente, permitindo um processo mais ágil. "Em vez de levar meses para fazer, eles podem ser feitos em dias", disse ele.
O maior benefício para a preparação de dados da perspectiva de Erfan é não ter um gargalo de TI. Em vez disso, o ônus de criar e preparar ativos de dados para toda a organização pode ser compartilhado com os usuários finais, fornecendo a eles as ferramentas e a capacidade de fazer isso por conta própria. As equipes de negócios já estão fazendo visualizações e usando painéis por conta própria. "Por que eles também não prepararam os dados para análise sem esperar pela TI?"
Passos para o sucesso
Para algumas empresas, um pequeno grupo ou indivíduo expressa a necessidade de uma solução de preparação de dados. Em outros, surge de um processo de democratização de dados em toda a organização. De qualquer forma, disse ele, o primeiro passo é a organização definir "maturidade" de acordo com seus próprios objetivos de longo prazo.
As perguntas iniciais apropriadas para esse processo podem ser:
Quais são os passos para a maturidade?
Para onde você quer levar sua preparação de dados?
Os usuários serão limitados a um pequeno grupo ou a colaboração é mais importante?
O próximo passo para a maturidade é a automação. As perguntas para esta fase podem ser:
Todas as cargas de trabalho de preparação de dados por solicitação serão mantidas?
A preparação de dados permanecerá em um pequeno número de usuários ou será expandida para oferecer ativos de dados certificados em toda a organização que outros possam usar?
Como a preparação de dados se integrará ao catálogo de dados existente e às ferramentas de BI?
A interseção: onde o ETL encontra a preparação de dados
Erfan acredita que a ETL está em um ponto de virada. As soluções de preparação de dados estão revolucionando o mercado, mas, ao mesmo tempo, "as empresas de ETL e BI também estão adicionando preparação de dados porque essa é uma necessidade que eles veem no mercado", disse ele. que uma solução de ETL ainda é a melhor opção, especialmente para casos de uso em que bilhões de registros de dados são transformados e carregados em massa para data warehouses e casos de uso em que os trabalhos precisam ser executados automaticamente todos os dias sem nenhuma alteração no esquema de dados. "Coisas que são previsíveis e repetíveis passam pelo fluxo de trabalho ETL."
Uma área de interseção é entre ETL e ferramentas de visualização. Um catálogo integrado, por exemplo, dentro da plataforma é importante, é onde os ativos de dados certificados podem ser disponibilizados para as equipes de negócios. "ETL é necessário, mas também são ferramentas de visualização de dados." As ferramentas de preparação de dados geralmente podem preencher a lacuna entre ETL e ferramentas de visualização, atendendo às necessidades de pesquisa e preparação de dados de usuários de negócios fora da TI.
Fonte: Dataversity
Comentários