P A T H

Identificando valores duplicados nos dados

O que você vai aprender?

Com o sucesso recente do Alteryx Cloud e a migração de usuários do Alteryx Designer para a versão Cloud fica a dúvida. O que podemos fazer no Alteryx cloud e qual a diferença entre ele e o Alteryx Designer?

Então selecionamos algumas dicas que iremos trazer semanalmente mostrando as diferenças entre o Alteryx Cloud Designer e o Alteryx  Designer.

INTRODUÇÃO

A ferramenta “Unique” (ou “Exclusivo”) é uma das ferramentas mais usadas no Alteryx Designer, e agora recebeu uma repaginada no Alteryx Cloud.

Vamos explorar as novas funcionalidades dessa ferramenta e descobrir como podemos identificar valores duplicados na nossa base de dados.

Passo 1: Conectar a sua base de dados

Traga uma ferramenta de input para o fluxo e conecte-se na sua base de dados. Se for preciso clique em “Upload File” para importar um arquivo local ou em “Connect to Data” para conectar em uma base que já foi importada.

Para esta dica, vamos usar uma base de exemplo que contém as Top100 músicas da Billboard dos anos de 2015 até 2021.

Passo 2: Traga a ferramenta Unique

Vamos encontra-la na aba de ferramentas de “Preparation”. Quando incorporamos ela no fluxo, essa é sua tela de configuração.

Passo 3: Configurar a ferramenta

Para configurar a ferramenta Unique, selecione as colunas que deseja usar para localizar linhas duplicadas. Por exemplo, ao selecionar a coluna “song”, vamos separar as ocorrências duplicadas de cada música.

 

Registros duplicados serão mostrados na âncora de saída “D” e a âncora de saída “U” contém os valores exclusivos do conjunto de dados.

Como podemos ver abaixo, na saída “D” temos varias ocorrências da música “All the Stars” dos artistas Kendrick Lamar e SZA, pois essa música apareceu várias vezes na base. Na saída “U” temos apenas a primeira ocorrência. Se essa música só tivesse aparecido uma vez, não teria nenhum registro dela na saída “D”:

Além disso, se selecionarmos mais de uma coluna, podemos detalhar nossa análise. Por exemplo, se tivessem duas músicas na base com o mesmo nome, mas de artistas diferentes, apenas selecionar a coluna “song” não seria o bastante. Precisaríamos selecionar “song” e “artist” para analisar cada ocorrência de música e artista.

Como podemos ver abaixo, a música “34+35” possuía mais de uma versão. Em algumas linhas temos como artista apenas a Ariana Grande, mas em alguns casos temos feat. com outras artistas. Mas como selecionamos apenas a coluna “song”, contou como se fosse a mesma versão da música, sem levar em consideração a valor da coluna “artist”:

Por último, uma funcionalidade nova que chegou no Alteryx Cloud para essa ferramenta é a opção de ordenar a base já dentro da própria ferramenta “Unique”, sem precisar trazer ferramentas adicionais para realizar a ordenação. Então se, por exemplo, quiséssemos trazer a música mais ouvida de cada data da base, poderíamos ordenar por Data e Rank, como mostrado abaixo:

08 de Agosto de 2024

Pronto, você aprendeu como identificar valores duplicados na base de dados usando o Alteryx Cloud Designer!

Language