P A T H

5 formas de padronizar valores nulos

O que você vai aprender?

Nesta dica, vamos conhecer algumas formas de limpar valores nulos em nossa base de dados, seja removendo-os, excluindo a linha ou padronizando seu conteúdo .

INTRODUÇÃO

Um dos problemas clássicos da preparação de dados são dados inconsistentes ou ausentes, e uma dessas situação são campos que estão nulos, seja por falta de informação, por erro nos dados, ou por outro motivo.

Hoje iremos aprender algumas formas de como padronizas campos nulos com números ou cadeias de caracteres. Para os exemplos abaixo, utilizaremos a seguinte base de dados com nosso catálogo de produtos.

Imagem1 Dica Alteryx 127

FORMA 01: REMOVER A LINHA OU COLUNA

A maneira mais simples e comum é remover completamente a linha ou a coluna, mas para isso precisamos que toda a linha da base de dados, ou toda a coluna da base precisa estar nula.

Em nosso exemplo temos a coluna “Tamanho” completamente nula e a linha 3 também.

Podemos utilizar uma única ferramenta de Data Cleansing e remover os dois casos de uma única vez sem precisar se preocupar com o resto da base. Basta configurarmos a ferramenta da seguinte forma.

Imagem2 Dica Alteryx 127

FORMA 02: PADRONIZA O CAMPO EM 0 OU VAZIO

Outra opção é padronizar os nulos como 0 (Zero) ou vazio. Essa configuração também pode ser encontrada na ferramenta de Data Cleansing e configuramos da seguinte forma.

Imagem3 Dica Alteryx 127

FORMA 03: SUBSTITUIR O CONTEÚDO POR UMA MÉDIA OU MEDIANA

Quando falamos de campos numéricos, podemos querer também substituir o nulo por um cálculo, como por exemplo a média do valor de todos os outros produtos. Para isso utilizaremos a ferramenta de imputation, configurada da seguinte forma:

Imagem4 Dica Alteryx 127

Podemos observar que a linha que estava com preço (price) nulo, está agora preenchida com 29.99, que é a média dos outros 5 produtos.

FORMA 04: BUSCAR DADO DA ÚLTIMA LINHA PREENCHIDA (MULTI-ROW)

Uma opção também é buscar os dados da última linha preenchida, normalmente utilizado para complementar linhas mescladas do Excel. Quando lemos um arquivo com linhas mescladas, isso significa que a primeira linha está preenchida, e as demais estão NULAS.

Como vemos no nosso exemplo inicial, a coluna de produtos tem uma linha nula, que deveria estar preenchida com o produto da linha anterior.

Imagem5 Dica Alteryx 127

Para isso utilizaremos a ferramenta de Multi-Row Formula configurada da seguinte forma:

Imagem6 Dica Alteryx 127

Ou seja, caso a linha atual de product_catalog seja nula, ele irá buscar o conteúdo da linha anterior e preencher, tendo assim o seguinte resultado:

Imagem7 Dica Alteryx 127

FORMA 05: SUBSITUINDO O CONTEÚDO NULO POR UM TEXTO ESPECÍFICO OU VALOR

E a última forma que iremos mostrar aqui é utilizando a ferramenta de fórmula, onde iremos configura-la para substituir a ocorrência de nulo por um valor ou texto específico. Nesse caso iremos preencher todo o conteúdo da coluna “Tamanho” com o valor “Único”.

Imagem8 Dica Alteryx 127

Perceba que a fórmula da ferramenta de “Multi-row Formula” e da ferramenta de “Formula” são bem parecidas, isso acontece porque estamos utilizando a mesma função (If Else), mas utilizando campos diferentes.

07 de março de 2023

Pronto! Agora você já sabe 5 formar para padronizar valores nulos no Alteryx.

Language