PATH | Dicas Alteryx – Usando o Alteryx para descaracterizar um conjunto de dados

Posted on Posted in dicas alteryx

Existem situações em que precisamos compartilhar informações sensíveis ou estratégicas para terceiros, seja para desenvolver um sistema ou testar uma nova funcionalidade. Para garantir o sigilo das informações contidas neste conjunto de dados, recorremos a técnicas de descaracterização.

Nesta dica você vai aprender como fazer isso, embaralhando as informações de campos e registros.

No nosso exemplo, vamos usar um conjunto de dados com 3 campos e 10 registros. Eles estão ordenados de forma ascendente intencionalmente para que você possa comparar os dados antes e depois do processo de descaracterização.

Nosso conjunto de dados inicial é:

Nome        Idade      Salario
-----------------------------------
Alan        10          10000
Bernardo    20          20000
Carlos       30          30000
Daniel       40          40000
Eduardo     50          50000
Flavio       60          60000
Gilberto    70          70000
Hugo        80          80000
Ian         90          90000
Jorge       100         100000

 

Passo 1: Gere um fluxo para cada campo presente no seu conjunto de dados

Para cada campo, crie um fluxo independente, cada um com 2 colunas: Record ID e o campo em questão. No nosso exemplo, criaremos 3 fluxos, contendo as colunas Record ID + Nome, Record ID + Idade e Record ID + Salario, respectivamente.

Passo 2: Crie um campo aleatório (nos 3 fluxos)

Use a ferramenta Formula para gerar um número aleatório. Ele deve ser grande o suficiente para reduzir a ocorrência de duplicidades. Existem várias maneiras de se gerar um número aleatório; a fórmula que escolhemos para este exemplo é RandInt(1000)*RandInt(1000)+RandInt(1000). Crie um novo campo e chame-o de Random.

A partir desse ponto, cada passo deverá ser repetido em cada um dos fluxos. Você pode copiar e colar a ferramenta e realizar os ajustes quando necessário.

Passo 3: Ordene o conjunto de dados

Use a ferramenta Sort para ordenar o conjunto de dados pelo campo Random gerado no passo anterior.

Passo 4: Crie uma nova coluna com um Sequencial

Com os dados ordenados, crie um novo índice. Chame-o de NewID.

Passo 5: Remova os campos desnecessários

Use a ferramenta Select para manter no conjunto de dados apenas o NewID e o campo próprio do fluxo. No exemplo abaixo, o campo Nome.

Passo 6: Una os campos novamente

Use a ferramenta Multi-Join para reagrupar os campos do seu conjunto de dados. A chave deverá ser o campo New ID.

Lembre-se que para executar este passo, as etapas anteriores devem ter sido concluídas para todos os campos.

Na saída, escolha apenas os campos que fazem parte do conjunto inicial, desmarcando os campos NewID de cada entrada.

Passo 7: Verifique o resultado

 Finalmente, conecte uma ferramenta Browse na saída e verifique como os dados estão embaralhados de forma aleatória.

Pronto! Agora você já sabe como usar o Alteryx para descaracterizar seus dados!