O que você vai aprender?
Nesta dica você aprenderá a usar o Alteryx para nomear automaticamente as colunas de seu dataset a partir de uma linha específica.
Esta funcionalidade é particularmente útil quando trabalhamos com arquivos do Excel, formatados para impressão.
Introdução
Em muitas ocasiões, o ponto de partida da análise de dados é uma planilha do Excel ou arquivo similar, que foi formatado visando a apresentação ou impressão do resultado final.
Como consequência dessa formatação, a importação dos dados para o Alteryx gera alguns efeitos colaterais indesejados, como linhas ou colunas em branco, falta do nome das colunas e outras informações desnecessárias para a análise.
Suponha que você receba um arquivo do Excel neste formato:
Vamos utilizar algumas técnicas de limpeza para facilitar a leitura do arquivo.
Passo 1: Inclua a planilha em seu Fluxo de Trabalho
Utilize a ferramenta Input para carregar o arquivo Excel para seu fluxo de trabalho. Nesta etapa, certifique-se que a opção First Row Contains Data esteja marcada. Isso vai garantir que o Alteryx reconheça todas as linhas como dados em potencial.
Passo 2: Verifique as colunas e linhas relevantes para a análise
Como o arquivo estava otimizado para impressão, algumas colunas e linhas foram deixadas intencionalmente em branco para deixar a visualização mais agradável. Isto deve ser removido.
Utilize a ferramenta Browse para identificar em que linha os dados começam a aparecer.
Percebemos que a tabela com informações relevantes começa na linha 4, onde temos o nome das colunas. As linhas 1 e 2 apresentam informações, mas vamos desconsiderá-las neste exemplo.
Olhos mais atentos podem identificar que o Alteryx entendeu que a coluna A da planilha estava completamente em branco, e foi descartada na leitura do arquivo. Caso isso não tivesse acontecido, deveríamos excluir a coluna utilizando a ferramenta Select.
Passo 3: Remova as linhas desnecessárias
Use a ferramenta Select Records para eliminar as linhas 1 a 3 do dataset. A linha de cabeçalho deve permanecer, pois ela será necessária no passo seguinte. Na configuração, escolha 4+, indicando que queremos manter da 4ª linha em diante.
Passo 4: Renomeie os campos
Use a ferramenta Dynamic Rename para alterar o nome das colunas. A primeira linha do seu conjunto de dados está preenchido com o nome das colunas. Escolha “Take Field Name from FirstRow of Data” no campo Rename Mode.
Passo 5: Exclua a linha com a informação de total
Note que a formatação da planilha Excel possui uma linha de total. Esta informação não é necessária para nossa análise, e por isso vamos excluí-la.
Há várias maneiras de fazer isso. Neste exemplo, vamos usar a ferramenta Filter para selecionar apenas as linhas com dados válidos, por exemplo com a Estação preenchida.
Passo 6: Tratamento do Retorno
O passo final é tratar os campos restantes, ajustando os tamanhos e formatos de acordo com o domínio de cada coluna.