P A T H

Como gerar nomes de coluna automaticamente

O que você vai aprender?

Nesta dica você aprenderá a usar o Alteryx para nomear automaticamente as colunas de seu dataset a partir de uma linha específica.

Esta funcionalidade é particularmente útil quando trabalhamos com arquivos do Excel, formatados para impressão.

Introdução

Em muitas ocasiões, o ponto de partida da análise de dados é uma planilha do Excel ou arquivo similar, que foi formatado visando a apresentação ou impressão do resultado final.

Como consequência dessa formatação, a importação dos dados para o Alteryx gera alguns efeitos colaterais indesejados, como linhas ou colunas em branco, falta do nome das colunas e outras informações desnecessárias para a análise.

Suponha que você receba um arquivo do Excel neste formato:

Vamos utilizar algumas técnicas de limpeza para facilitar a leitura do arquivo.

Passo 1: Inclua a planilha em seu Fluxo de Trabalho

Utilize a ferramenta Input para carregar o arquivo Excel para seu fluxo de trabalho. Nesta etapa, certifique-se que a opção First Row Contains Data esteja marcada. Isso vai garantir que o Alteryx reconheça todas as linhas como dados em potencial.

 Passo 2: Verifique as colunas e linhas relevantes para a análise

Como o arquivo estava otimizado para impressão, algumas colunas e linhas foram deixadas intencionalmente em branco para deixar a visualização mais agradável. Isto deve ser removido.

Utilize a ferramenta Browse para identificar em que linha os dados começam a aparecer.

Percebemos que a tabela com informações relevantes começa na linha 4, onde temos o nome das colunas. As linhas 1 e 2 apresentam informações, mas vamos desconsiderá-las neste exemplo.

Olhos mais atentos podem identificar que o Alteryx entendeu que a coluna A da planilha estava completamente em branco, e foi descartada na leitura do arquivo. Caso isso não tivesse acontecido, deveríamos excluir a coluna utilizando a ferramenta Select.

Passo 3: Remova as linhas desnecessárias

Use a ferramenta Select Records para eliminar as linhas 1 a 3 do dataset. A linha de cabeçalho deve permanecer, pois ela será necessária no passo seguinte. Na configuração, escolha 4+, indicando que queremos manter da 4ª linha em diante.

Passo 4: Renomeie os campos

Use a ferramenta Dynamic Rename para alterar o nome das colunas. A primeira linha do seu conjunto de dados está preenchido com o nome das colunas. Escolha “Take Field Name from FirstRow of Data” no campo Rename Mode.

Passo 5: Exclua a linha com a informação de total

Note que a formatação da planilha Excel possui uma linha de total. Esta informação não é necessária para nossa análise, e por isso vamos excluí-la.

Há várias maneiras de fazer isso. Neste exemplo, vamos usar a ferramenta Filter para selecionar apenas as linhas com dados válidos, por exemplo com a Estação preenchida.

Passo 6: Tratamento do Retorno

O passo final é tratar os campos restantes, ajustando os tamanhos e formatos de acordo com o domínio de cada coluna.

10 de julho de 2020

Pronto! Agora você sabe renomear automaticamente campos usando o Alteryx.

Language