ETL vs Preparação de Dados
- PLD Expert
- 10 mar 2022
- 5 Min. de lectura

As tecnologias de extração, transformação e carregamento (ETL), gerenciadas exclusivamente pela TI, eram até recentemente a principal ferramenta usada para combinar dados de vÔrias fontes e, assim, fornecer a capacidade de conduzir decisões de negócios importantes para as organizações. Mas com o advento da preparação de dados de autoatendimento, usuÔrios de negócios e especialistas no assunto podem encontrar soluções por conta própria.
"Em algumas organizaƧƵes, espera-se que cada engenheiro de dados/recurso de TI dĆŖ suporte a mais de centenas de usuĆ”rios de negócios ou especialistas, criando um gargalo que pode atrasar a chegada de informaƧƵes crĆticas de negócios", disse Farnaz Erfan, Isso significa que o ETL estĆ” se tornando obsoleto ? Ou existem casos de uso para ambos? Erfan discutiu as semelhanƧas e diferenƧas entre ETL e preparação de dados em uma entrevista recente ao DATAVERSITYĀ®.
SemelhanƧas
Muitas pessoas assumem que ETL e preparação de dados são a mesma coisa porque conceitualmente são muito semelhantes e ambos resolvem o mesmo problema. Dados fora do formato esperado nunca estão prontos para anÔlise ou aprendizado de mÔquina, e ambas as ferramentas transformam os dados de uma maneira que os aproxima de uma única fonte de verdade para usos como anÔlise ou aprendizado de mÔquina.
DiferenƧas
Onde o ETL e a preparação de dados diferem estÔ na complexidade do paradigma, no tipo de preparação necessÔria e no usuÔrio, e essas diferenças determinam o tipo de casos de uso.
1. O usuƔrio
As ferramentas ETL foram criadas hÔ mais de 25 anos para usuÔrios técnicos de TI, e as ferramentas de preparação de dados são voltadas para usuÔrios empresariais modernos. "Pode ser um analista, um gerente de operações de vendas, um gerente de marketing, muitas pessoas diferentes dentro da linha de negócios podem usar essas ferramentas", disse Erfan.
Os fornecedores que oferecem ferramentas de preparação de dados tendem a seguir uma forma visual de apresentação de dados, semelhante a uma planilha do Excel, onde os usuÔrios podem ver os dados no centro de sua Ôrea de trabalho. Isso permite que usuÔrios não técnicos investiguem problemas de qualidade de dados, preparem dados, validem dados e vejam como os valores dos dados mudam conforme regras ou condições diferentes são aplicadas.
2. O paradigma
O ETL Ć© baseado em um conjunto predeterminado de regras e fluxos de trabalho, problemas em potencial, como erros de ortografia ou caracteres extras, devem ser antecipados para que as regras sobre como lidar com esses problemas possam ser incorporadas ao fluxo de trabalho de ponta a ponta. Por outro lado, uma ferramenta de preparação de dados que usa algoritmos integrados Ć© capaz de descobrir e investigar os dados Ć medida que passam pelo fluxo de trabalho. āPor exemplo, algoritmos baseados em aprendizado de mĆ”quina ou processamento de linguagem natural podem reconhecer coisas que sĆ£o escritas de maneira diferente, mas sĆ£o realmente a mesma coisaā.
Ele deu o exemplo de uma cidade chamada "St. Louis", e como ela pode ser inserida de vĆ”rias maneiras, ou pode haver vĆ”rias cidades com o mesmo nome escrito de forma diferente. Em um fluxo de trabalho ETL, as regras para encontrar cada variação especĆfica devem ser programado com antecedĆŖncia, e variaƧƵes nĆ£o programadas sĆ£o ignoradas Uma ferramenta de preparação de dados pode encontrar diferenƧas ortogrĆ”ficas sem ajuda, para que o usuĆ”rio nĆ£o precise antecipar todas as variaƧƵes possĆveis A ferramenta pode solicitar uma decisĆ£o sobre cada variação diferente no nome desta cidade, o que fornece uma oportunidade para melhorar os dados antes de serem usados, disse ele.
"Essa Ʃ uma grande mudanƧa em termos de qualidade dos dados que saem dele, alƩm de aumentar a velocidade com que posso acessar meus dados". "Compare isso com uma ferramenta ETL que exige que o usuƔrio predetermine as regras que devem ser aplicadas e adivinhe como elas podem ter sido escritas."
3. Complexidade de dados
Erfan, que começou sua carreira no espaço tradicional de ETL/gerenciamento de dados, disse que a maior parte do foco do ETL permanece em fontes de dados relacionais, porque seus pontos fortes estão no carregamento em massa e na transformação de tabelas. e fontes de dados relacionais, bem como com CRM, Salesforce e aplicativos de marketing.
A preparação de dados permanece robusta tanto de forma relacional quanto para tipos de dados mais complexos, como JSON ou XML, onde hÔ estruturas de dados aninhadas. Uma ferramenta de preparação de dados nivela os dados em um formato tabular, retornando a esse paradigma do Excel mais fÔcil para usuÔrios não técnicos entenderem. "Você pode ver claramente o conteúdo completo dos dados para preparÔ-los para anÔlise, em vez de tentar entendê-los em uma estrutura aninhada", disse ele.
BenefĆcios das ferramentas de preparação de dados
O espaço ETL requer padrões e uma estrutura bem definida, ou modelo multidimensional para publicação. As alterações na estrutura de dados exigem uma abordagem de "recomeçar" para incorporar transformações, e os dados devem ser republicados, resultando em um processo muito mais longo. Por outro lado, usando uma solução de preparação de dados, você pode processar os dados em sua totalidade. Os algoritmos de aprendizado de mÔquina lidam com mais dados livremente e, portanto, as iterações podem ser feitas rapidamente, permitindo um processo mais Ôgil. "Em vez de levar meses para fazer, eles podem ser feitos em dias", disse ele.
O maior benefĆcio para a preparação de dados da perspectiva de Erfan Ć© nĆ£o ter um gargalo de TI. Em vez disso, o Ć“nus de criar e preparar ativos de dados para toda a organização pode ser compartilhado com os usuĆ”rios finais, fornecendo a eles as ferramentas e a capacidade de fazer isso por conta própria. As equipes de negócios jĆ” estĆ£o fazendo visualizaƧƵes e usando painĆ©is por conta própria. "Por que eles tambĆ©m nĆ£o prepararam os dados para anĆ”lise sem esperar pela TI?"
Passos para o sucesso
Para algumas empresas, um pequeno grupo ou indivĆduo expressa a necessidade de uma solução de preparação de dados. Em outros, surge de um processo de democratização de dados em toda a organização. De qualquer forma, disse ele, o primeiro passo Ć© a organização definir "maturidade" de acordo com seus próprios objetivos de longo prazo.
As perguntas iniciais apropriadas para esse processo podem ser:
Quais são os passos para a maturidade?
Para onde você quer levar sua preparação de dados?
Os usuÔrios serão limitados a um pequeno grupo ou a colaboração é mais importante?
O próximo passo para a maturidade é a automação. As perguntas para esta fase podem ser:
Todas as cargas de trabalho de preparação de dados por solicitação serão mantidas?
A preparação de dados permanecerÔ em um pequeno número de usuÔrios ou serÔ expandida para oferecer ativos de dados certificados em toda a organização que outros possam usar?
Como a preparação de dados se integrarÔ ao catÔlogo de dados existente e às ferramentas de BI?
A interseção: onde o ETL encontra a preparação de dados
Erfan acredita que a ETL estĆ” em um ponto de virada. As soluƧƵes de preparação de dados estĆ£o revolucionando o mercado, mas, ao mesmo tempo, "as empresas de ETL e BI tambĆ©m estĆ£o adicionando preparação de dados porque essa Ć© uma necessidade que eles veem no mercado", disse ele. que uma solução de ETL ainda Ć© a melhor opção, especialmente para casos de uso em que bilhƵes de registros de dados sĆ£o transformados e carregados em massa para data warehouses e casos de uso em que os trabalhos precisam ser executados automaticamente todos os dias sem nenhuma alteração no esquema de dados. "Coisas que sĆ£o previsĆveis e repetĆveis passam pelo fluxo de trabalho ETL."
Uma Ôrea de interseção é entre ETL e ferramentas de visualização. Um catÔlogo integrado, por exemplo, dentro da plataforma é importante, é onde os ativos de dados certificados podem ser disponibilizados para as equipes de negócios. "ETL é necessÔrio, mas também são ferramentas de visualização de dados." As ferramentas de preparação de dados geralmente podem preencher a lacuna entre ETL e ferramentas de visualização, atendendo às necessidades de pesquisa e preparação de dados de usuÔrios de negócios fora da TI.
Fonte: Dataversity