
O que você vai aprender?
A etapa de preparação e limpeza de dados é fundamental em qualquer projeto de análise. Frequentemente, nos deparamos com colunas de texto que contêm informações valiosas, mas poluídas com caracteres indesejados, espaços, ou em formatos inconsistentes.
É aqui que a ferramenta RegEx brilha. Com ela, é possível criar regras de limpeza e extração de dados de forma dinâmica e poderosa, resolvendo em uma única etapa o que levaria várias em um processo tradicional.
Exemplo:
Imagine um cenário comum: você recebe uma base de clientes onde a coluna “Telefone” foi preenchida de diversas maneiras:
Seu objetivo é padronizar todos esses formatos, extraindo apenas os dígitos numéricos para criar uma coluna limpa e pronta para análise ou cruzamento com outras bases (ex: 11987654321).
Com a ferramenta RegEx essa tarefa fica bem fácil.
Conecte sua base de dados que contém a coluna a ser limpa
Ferramenta RegEx: Para fazer isso com a ferramenta Regex, basta usar o regex “[^0-9]+”. Mas para performance, vamos usar a ferramenta data cleansing. A configuração será essa:
Ferramenta Regex
Na janela de configuração, selecione a coluna que deseja processar (no nosso exemplo, a coluna 4).
No campo Expressão Regular, digite a seguinte expressão: ([0-9]{0,9})\D*$
Para conhecer diferentes Regex use sites, confiáveis. Não vamos recomendar nenhum, mas uma simples pesquisa no google vai lhe dar a resposta que você procura.
O nosso regex trás os últimos 9 números da coluna.
O restante da configuração será assim:
Essa configuração criará uma nova coluna da maneira desejada, mantendo os dados como você queria.





