P A T H

Identificando Anagramas com Alteryx

O que você vai aprender?

Nesta dica vamos aprender como identificar anagramas na nossa base de dados utilizando Alteryx.

INTRODUÇÃO

Temos aqui uma base de dados com algumas palavras diferentes, porém com letras parecidas. Nosso objetivo é descobrir quais palavras diferentes tem letras iguais, ou seja, descobrir quais dessas palavras são anagramas.

Passo 1: 

Para isso vamos usar algumas ferramentas que vão nos auxiliar no processo.

Primeiro a ferramenta de RecordID para criarmos um identificador único para cada linha, mantendo as palavras semelhantes próximas.

Logo após, vamos usar duas ferramentas de fórmula, para criar novas colunas que vamos desmembrar para fazer a comparação se existe ou não um anagrama.

Esta será a configuração da ferramenta de fórmula, e será diferente para a outra parte, que será “palavra2” e “[word2]”. Após isso, podemos usar a ferramenta “Select” para selecionar as colunas que continuarão no fluxo ou não. Essa parte é opcional.

Após isso, vamos usar a ferramenta regex para separar cada letra das nossas palavras. Vamos usar duas vezes a ferramenta, separando primeiro as palavras em “word1” e depois em word2”, caso usemos duas ferramentas seguidas as linhas ficariam duplicadas, e não queremos isso, visto que já criamos uma nova coluna para repetir as palavras que queremos.

As duas ferramentas terão uma configuração semelhante, a única diferença é que uma irá mudar a coluna palavra1 e outra a coluna palavra2.

Com essa expressão e usando Tokenize, vamos por uma letra em casa linha. Como já temos um número (gerado pela ferramenta RecordID) para cada palavra, esse número vai se repetir, sendo nossa ferramenta para saber de qual palavra vem cada letra.

Agora que temos nossos dados desmembrados começamos as tratativas, o que queremos aqui então é organizar nossas letras de uma maneira que quando juntarmos as mesmas novamente, os resultados vão ser iguais para os anagramas, e diferentes para os não anagramas.

Vamos usar a ferramenta de Sort e organizar as letras por ordem alfabética. Assim vamos ter certeza que as letras desmembradas de cada palavra vão estar sempre na mesma ordem, e comparar as palavras para descobrir se realmente são anagramas vai se tornar algo bem mais simples.

Então vamos usar a ferramenta Sumarize para juntar todas numa nova palavra, que é a que vamos usar para fazer nossa comparação. Vamos usar essa ferramenta para manter também a palavra antiga, então agruparemos não só pelo RecordID mas também pelas palavras.

A configuração da ferramenta de Sumarize deve estar dessa maneira, e nosso fluxo da seguinte forma.

Agora tudo que falta é unir essas duas tratativas e comparar as duas. Para isso usaremos o Join, assim conseguimos também selecionar as colunas que continuarão no nosso fluxo e renomear para o nome que quisermos.

Essa é a configuração para nossa ferramenta.

Só precisamos manter um RecordID, então escolhemos manter o que vem primeiro no nosso fluxo.

Nosso próximo passo será com a ferramenta de fórmula, vamos criar uma regra que nos dirá se a palavra é um anagrama ou não. Como separamos as letras, organizamos em ordem alfabética e unimos novamente as mesmas letras, nossa nova coluna tem palavras iguais quando forem anagramas. Usaremos isso ao nosso favor. A configuração da nossa ferramenta é a seguinte.

Nosso fluxo estará assim:

03 de Maio de 2023

Pronto. Agora você aprendeu a descobrir anagramas no seu fluxo.

Language