P A T H

Trabalhando com dados não formatados

O que você vai aprender?

Em muitos cenários, analistas de dados precisam lidar com dados muitas vezes não formatados da melhor forma. Estas ocasiões exigem que os analistas realizem múltiplas transformações para que os dados possam ser consumidos posteriormente.

INTRODUÇÃO

Na nossa base de exemplo, como podemos ver na imagem abaixo, temos informações categóricas de produtos no cabeçalho do arquivo. Para cada coluna, 3 linhas armazenam dados de produto, tipo de mercado e tipo de produto.

O objetivo final desta dica é demonstrar a formatação que poderia ser realizada na base de dados para que ela se assemelhe a imagem abaixo.

Passo 1: Carregar a base

Inicialmente, utilizamos a ferramenta “Text Input” para inserir os dados no início do fluxo.

Você poderia utilizar também a ferramenta de Input Data para carregar uma base de dados local ou em um banco.

Passo 2: Dividir a base de dados

Conectar a ferramenta de “Sample” para dividir os dados em 2 cenários: Uma tabela com os cabeçalhos e outra com os valores. Iniciaremos o passo a passo fazendo o tratamento da base de cabeçalhos.

Passo 3: Isolar os cabeçalhos

Conectar a ferramenta “Sample” para que filtrar as 3 primeiras linhas de cada coluna, que contém os cabeçalhos.

O resultado do passo 3 pode ser observado abaixo, onde temos uma tabela com todos os cabeçalhos.

Passo 4: Transpor a tabela de cabeçalhos

Conectar a ferramenta “Transpose” para transformar os valores das colunas em linhas. Utilizando a coluna “F1” como base para agrupamento, realizar o transpose de todas as outras colunas restantes.

Os resultados da etapa de “transpose” podem ser observados abaixo. Repare que na linha 12 aparece uma mensagem indicando que uma célula contém espaços em branco. Iremos tratar esse caso na sequência.

Passo 5: Realizar tratamentos finais na base de cabeçalho

Conectar a ferramenta “data cleansing” para remover os espaços em branco presentes na coluna “Value”. Além disso, modificar os seus valores para maiúsculo.

Os resultados da etapa de limpeza podem ser observados abaixo. Repare que a célula que anteriormente apresentava uma mensagem em formato de alerta sobre espaço em branco já não aparece mais.

Passo 6: Pivotar a tabela de cabeçalhos

Conectar a ferramenta “cross tab” para criar novas colunas a partir da coluna “F1”. Essa estratégia será importante para mesclar a base de cabeçalhos com a base de valores posteriormente.

O resultado desta etapa pode ser observado abaixo. Note que temos uma coluna chamada “Name”, a qual utilizaremos para linkar a tabela de cabeçalhos com a tabela de valores.

Passo 7: Isolar a base de valores

Similar ao que foi feito com a base de cabeçalhos, devemos fazer o mesmo procedimento de limpeza e padronização para os valores. Conectar a ferramenta “sample” para remover as 3 primeiras linhas, que são os cabeçalhos, da base.

A base de valores pode ser observada abaixo:

Passo 8: Transpor a base de valores

Conectar a ferramenta “Transpose” para transformar os valores das colunas em linhas. Utilizando a coluna “F1” como base para agrupamento, realizar o transpose de todas as outras colunas restantes.

O resultado da ferramenta transpose pode ser observado abaixo. Note que a saída dessa etapa e a saída do passo 6 possuem algo em comum, a coluna “Name”. Utilizaremos ela para fazer o link entre as duas bases.

Passo 9: Mesclar as bases de valores e cabeçalhos

Conectar a ferramenta “Join” para mesclar a base de dados de valores e a base de cabeçalhos. Para isso, iremos utilizar a chave comum “Name”. Além disso, iremos performar algumas atividades para selecionar e renomear colunas para um formato mais amigável, ainda na etapa de Join.

O resultado da mesclagem pode ser observado na imagem abaixo, onde temos a base pronta e formatada para futuras análises.

16 de Outubro de 2024

Pronto! Agora você já sabe como trabalhar com bases não formatadas no Alteryx Cloud.

Language