
O que você vai aprender?
Nesta dica, vamos aprender como preencher valores nulos com cálculos baseados nos dados, como média, mediana, moda ou valores personalizados.
INTRODUÇÃO
Sabemos que muitas vezes, nossas bases de dados contêm valores nulos, que representam a ausência de informação e podem prejudicar análises, cálculos e visualizações. Vamos ver como preencher esses valores com cálculos como média, mediana, moda ou valores personalizados e melhorar a qualidade dos nossos dados.
Passo 1: Conheça a base de dados
Nessa dica, iremos utilizar uma base de exemplo que possui o seguinte formato:

Nela, vamos ter as vendas dos meses de Janeiro, Fevereiro e Março para cada categoria de produtos de uma loja. Podemos ver que alguns dados foram perdidos e se apresentam como nulos.
Passo 2: Preencher valores nulos usando a ferramenta “imputation”
A forma mais rápida de preenchermos esses valores nulos é usando a ferramenta “imputation”. Arraste a ferramenta para o fluxo. Por padrão, ela virá com a seguinte configuração:

Podemos ver que ela automaticamente á selecionou todos os campos numéricos (que são nossas colunas de vendas) e á configurou para substituir os valores nulos pela média. Essa média vai ser a média de cada coluna correspondente, então, por exemplo, se houver um valor nulo na coluna “Vendas Janeiro”, ele será substituído pela média de valores de “Vendas Janeiro”.

Explorando as outras opções, podemos ver que podemos substituir também por medidas como a mediana ou a moda daquela coluna. Se escolhermos a opção “custom”, podemos digitar um valor para substituir os nulos, como “0” por exemplo.
Nesta dica, vamos manter a opção “Average” para substituirmos pela média.
Também podemos ver duas caixas que podem ser marcadas:
- A opção “Output imputed values as separate field” deixa os campos originais como estavam e cria novas colunas com o sufixo “_ImputedValue”.
- A opção “Include imputed value indicator field” cria uma coluna binária para cada coluna alterada pela ferramenta com o sufixo “_Indicator”, onde 1 indica que o valor foi imputado e 0 indica que ele foi deixado inalterado.
Vamos deixar a opção “Include imputed value indicator field” marcada. Esse será o resultado:

Podemos ver que os valores nulos foram preenchidos com as médias das colunas e as colunas criadas com o sufixo “_Indicator” com o valor “1” mostram exatamente quais linhas foram preenchidas.
