P A T H

Limpeza de Dados com a Ferramenta RegEx

O que você vai aprender?

A etapa de preparação e limpeza de dados é fundamental em qualquer projeto de análise. Frequentemente, nos deparamos com colunas de texto que contêm informações valiosas, mas poluídas com caracteres indesejados, espaços, ou em formatos inconsistentes.

É aqui que a ferramenta RegEx brilha. Com ela, é possível criar regras de limpeza e extração de dados de forma dinâmica e poderosa, resolvendo em uma única etapa o que levaria várias em um processo tradicional.

Exemplo:

Imagine um cenário comum: você recebe uma base de clientes onde a coluna “Telefone” foi preenchida de diversas maneiras:

Seu objetivo é padronizar todos esses formatos, extraindo apenas os dígitos numéricos para criar uma coluna limpa e pronta para análise ou cruzamento com outras bases (ex: 11987654321).

 

Com a ferramenta RegEx essa tarefa fica bem fácil.

Conecte sua base de dados que contém a coluna a ser limpa

Ferramenta RegEx: Para fazer isso com a ferramenta Regex, basta usar o regex “[^0-9]+”. Mas para performance, vamos usar a ferramenta data cleansing. A configuração será essa:

Ferramenta Regex

Na janela de configuração, selecione a coluna que deseja processar (no nosso exemplo, a coluna 4).

No campo Expressão Regular, digite a seguinte expressão: ([0-9]{0,9})\D*$

Para conhecer diferentes Regex use sites, confiáveis. Não vamos recomendar nenhum, mas uma simples pesquisa no google vai lhe dar a resposta que você procura.

O nosso regex trás os últimos 9 números da coluna.

O restante da configuração será assim:

Essa configuração criará uma nova coluna da maneira desejada, mantendo os dados como você queria.

26 de Novembro de 2025

Pronto, agora você sabe limpar os dados usando Regex

Language