top of page

ETL vs Preparação de Dados

  • Foto del escritor: PLD Expert
    PLD Expert
  • 10 mar 2022
  • 5 Min. de lectura

ree

As tecnologias de extração, transformação e carregamento (ETL), gerenciadas exclusivamente pela TI, eram até recentemente a principal ferramenta usada para combinar dados de vÔrias fontes e, assim, fornecer a capacidade de conduzir decisões de negócios importantes para as organizações. Mas com o advento da preparação de dados de autoatendimento, usuÔrios de negócios e especialistas no assunto podem encontrar soluções por conta própria.


"Em algumas organizações, espera-se que cada engenheiro de dados/recurso de TI dê suporte a mais de centenas de usuÔrios de negócios ou especialistas, criando um gargalo que pode atrasar a chegada de informações críticas de negócios", disse Farnaz Erfan, Isso significa que o ETL estÔ se tornando obsoleto ? Ou existem casos de uso para ambos? Erfan discutiu as semelhanças e diferenças entre ETL e preparação de dados em uma entrevista recente ao DATAVERSITY®.


SemelhanƧas

Muitas pessoas assumem que ETL e preparação de dados são a mesma coisa porque conceitualmente são muito semelhantes e ambos resolvem o mesmo problema. Dados fora do formato esperado nunca estão prontos para anÔlise ou aprendizado de mÔquina, e ambas as ferramentas transformam os dados de uma maneira que os aproxima de uma única fonte de verdade para usos como anÔlise ou aprendizado de mÔquina.


DiferenƧas

Onde o ETL e a preparação de dados diferem estÔ na complexidade do paradigma, no tipo de preparação necessÔria e no usuÔrio, e essas diferenças determinam o tipo de casos de uso.


1. O usuƔrio

As ferramentas ETL foram criadas hÔ mais de 25 anos para usuÔrios técnicos de TI, e as ferramentas de preparação de dados são voltadas para usuÔrios empresariais modernos. "Pode ser um analista, um gerente de operações de vendas, um gerente de marketing, muitas pessoas diferentes dentro da linha de negócios podem usar essas ferramentas", disse Erfan.

Os fornecedores que oferecem ferramentas de preparação de dados tendem a seguir uma forma visual de apresentação de dados, semelhante a uma planilha do Excel, onde os usuÔrios podem ver os dados no centro de sua Ôrea de trabalho. Isso permite que usuÔrios não técnicos investiguem problemas de qualidade de dados, preparem dados, validem dados e vejam como os valores dos dados mudam conforme regras ou condições diferentes são aplicadas.


2. O paradigma

O ETL Ć© baseado em um conjunto predeterminado de regras e fluxos de trabalho, problemas em potencial, como erros de ortografia ou caracteres extras, devem ser antecipados para que as regras sobre como lidar com esses problemas possam ser incorporadas ao fluxo de trabalho de ponta a ponta. Por outro lado, uma ferramenta de preparação de dados que usa algoritmos integrados Ć© capaz de descobrir e investigar os dados Ć  medida que passam pelo fluxo de trabalho. ā€œPor exemplo, algoritmos baseados em aprendizado de mĆ”quina ou processamento de linguagem natural podem reconhecer coisas que sĆ£o escritas de maneira diferente, mas sĆ£o realmente a mesma coisaā€.

Ele deu o exemplo de uma cidade chamada "St. Louis", e como ela pode ser inserida de vÔrias maneiras, ou pode haver vÔrias cidades com o mesmo nome escrito de forma diferente. Em um fluxo de trabalho ETL, as regras para encontrar cada variação específica devem ser programado com antecedência, e variações não programadas são ignoradas Uma ferramenta de preparação de dados pode encontrar diferenças ortogrÔficas sem ajuda, para que o usuÔrio não precise antecipar todas as variações possíveis A ferramenta pode solicitar uma decisão sobre cada variação diferente no nome desta cidade, o que fornece uma oportunidade para melhorar os dados antes de serem usados, disse ele.

"Essa Ʃ uma grande mudanƧa em termos de qualidade dos dados que saem dele, alƩm de aumentar a velocidade com que posso acessar meus dados". "Compare isso com uma ferramenta ETL que exige que o usuƔrio predetermine as regras que devem ser aplicadas e adivinhe como elas podem ter sido escritas."


3. Complexidade de dados

Erfan, que começou sua carreira no espaço tradicional de ETL/gerenciamento de dados, disse que a maior parte do foco do ETL permanece em fontes de dados relacionais, porque seus pontos fortes estão no carregamento em massa e na transformação de tabelas. e fontes de dados relacionais, bem como com CRM, Salesforce e aplicativos de marketing.

A preparação de dados permanece robusta tanto de forma relacional quanto para tipos de dados mais complexos, como JSON ou XML, onde hÔ estruturas de dados aninhadas. Uma ferramenta de preparação de dados nivela os dados em um formato tabular, retornando a esse paradigma do Excel mais fÔcil para usuÔrios não técnicos entenderem. "Você pode ver claramente o conteúdo completo dos dados para preparÔ-los para anÔlise, em vez de tentar entendê-los em uma estrutura aninhada", disse ele.


Benefícios das ferramentas de preparação de dados

O espaço ETL requer padrões e uma estrutura bem definida, ou modelo multidimensional para publicação. As alterações na estrutura de dados exigem uma abordagem de "recomeçar" para incorporar transformações, e os dados devem ser republicados, resultando em um processo muito mais longo. Por outro lado, usando uma solução de preparação de dados, você pode processar os dados em sua totalidade. Os algoritmos de aprendizado de mÔquina lidam com mais dados livremente e, portanto, as iterações podem ser feitas rapidamente, permitindo um processo mais Ôgil. "Em vez de levar meses para fazer, eles podem ser feitos em dias", disse ele.

O maior benefício para a preparação de dados da perspectiva de Erfan é não ter um gargalo de TI. Em vez disso, o Ónus de criar e preparar ativos de dados para toda a organização pode ser compartilhado com os usuÔrios finais, fornecendo a eles as ferramentas e a capacidade de fazer isso por conta própria. As equipes de negócios jÔ estão fazendo visualizações e usando painéis por conta própria. "Por que eles também não prepararam os dados para anÔlise sem esperar pela TI?"


Passos para o sucesso

Para algumas empresas, um pequeno grupo ou indivíduo expressa a necessidade de uma solução de preparação de dados. Em outros, surge de um processo de democratização de dados em toda a organização. De qualquer forma, disse ele, o primeiro passo é a organização definir "maturidade" de acordo com seus próprios objetivos de longo prazo.


As perguntas iniciais apropriadas para esse processo podem ser:

  • Quais sĆ£o os passos para a maturidade?

  • Para onde vocĆŖ quer levar sua preparação de dados?

  • Os usuĆ”rios serĆ£o limitados a um pequeno grupo ou a colaboração Ć© mais importante?


O próximo passo para a maturidade é a automação. As perguntas para esta fase podem ser:

  • Todas as cargas de trabalho de preparação de dados por solicitação serĆ£o mantidas?

  • A preparação de dados permanecerĆ” em um pequeno nĆŗmero de usuĆ”rios ou serĆ” expandida para oferecer ativos de dados certificados em toda a organização que outros possam usar?

  • Como a preparação de dados se integrarĆ” ao catĆ”logo de dados existente e Ć s ferramentas de BI?


A interseção: onde o ETL encontra a preparação de dados

Erfan acredita que a ETL estÔ em um ponto de virada. As soluções de preparação de dados estão revolucionando o mercado, mas, ao mesmo tempo, "as empresas de ETL e BI também estão adicionando preparação de dados porque essa é uma necessidade que eles veem no mercado", disse ele. que uma solução de ETL ainda é a melhor opção, especialmente para casos de uso em que bilhões de registros de dados são transformados e carregados em massa para data warehouses e casos de uso em que os trabalhos precisam ser executados automaticamente todos os dias sem nenhuma alteração no esquema de dados. "Coisas que são previsíveis e repetíveis passam pelo fluxo de trabalho ETL."

Uma Ôrea de interseção é entre ETL e ferramentas de visualização. Um catÔlogo integrado, por exemplo, dentro da plataforma é importante, é onde os ativos de dados certificados podem ser disponibilizados para as equipes de negócios. "ETL é necessÔrio, mas também são ferramentas de visualização de dados." As ferramentas de preparação de dados geralmente podem preencher a lacuna entre ETL e ferramentas de visualização, atendendo às necessidades de pesquisa e preparação de dados de usuÔrios de negócios fora da TI.




Fonte: Dataversity

Ā 
Ā 
Ā 
bottom of page