P A T H

Como Utilizar a Ferramenta Amostra em % Aleatória

O que você vai aprender?

Nessa dica você irá aprender a utilizar ferramenta Amostra em % Aleatória e suas possibilidades de configuração para extrair uma amostra de dados aleatória de seu fluxo.

INTRODUÇÃO

A ferramenta Amostra em % Aleatória nos permite especificar um número de linhas ou uma porcentagem das linhas. Esse número ou porcentagem de registros será usado para criar uma amostra aleatória de dados, com o número de linhas que foi especificado. Também é possível especificarmos uma semente aleatória.

PASSO 01: CONFIGURANDO A FERRAMENTA

O primeiro passo que devemos seguir na configuração é escolher se queremos especificar um número de registros ou uma porcentagem dos registros.

  • N registros aleatórios: Selecione um valor para o número de registros para especificar o número de registros para a saída.
  • N% de registros aleatórios: Selecione um valor para porcentagem de registros para especificar a porcentagem de registros recebidos para saída.

A opção Saída Determinista permite selecionar um valor para Seed Aleatório para garantir que o mesmo conjunto de resultados aleatórios seja retornado cada vez que você executar o fluxo de trabalho (desde que a semente aleatória seja a mesma no tempo de execução).

Sempre que colocarmos aquele número de Seed, o mesmo conjunto de dados será obtido.

Exemplo de uso 01: N linhas aleatórias

Com a opção “ N registros aleatórios“, precisamos passar o número de registros que queremos que a amostra tenha, para isso, observe a base inicial de dados:

Note que ela possui um grande número de linhas (20.457), e nesse exemplo, desejamos criar uma amostra aleatória com apenas 500 linhas, para isso vamos configurar a ferramenta da seguinte forma:

Após isso, os dados ficarão assim, podemos ver que são apenas 500 registros:

Exemplo de uso 02: N% de linhas aleatórias

Com a opção “ N% de registros aleatórios“, precisamos passar a porcentagem do total de registros, essa será a quantidade de registros da amostra. Utilizaremos a mesma base do exemplo anterior:

Note que ela possui um grande número de linhas (20457), e nesse exemplo, desejamos criar uma amostra aleatória com apenas 10% do total das linhas originais, para isso vamos configurar a ferramenta da seguinte forma:

Após isso, os dados ficarão assim:

BONUS: a diferença entre a Ferramenta Amostra em % Aleatória e a Ferramenta Amostra

A ferramenta Amostra em % Aleatória e a ferramenta Amostra calculam números aleatórios de forma diferente. Este conjunto de dados contém 20.457 registros. Na imagem acima, cada ferramenta é configurada para retornar uma amostra de 1%.

 

Na ferramenta Amostra, a opção de 1 em 100 chances de incluir cada linha não retorna exatamente 1% dos dados. Em vez disso, cada linha individual tem 1% de chance de ser selecionada.

Cada vez que este fluxo de trabalho é executado, um número diferente de linhas pode ser retornado. Como podemos ver abaixo, o resultado dessa ferramenta possui 229 registros, que não é 10% de 20.457.

Quando definida para retornar 1% de registros aleatórios, a ferramenta Amostra em % Aleatória gera 205 linhas toda vez que o fluxo de trabalho é executado, mas o conjunto de registros é diferente a cada vez, como podemos ver abaixo:

22 de Março de 2022

Pronto! Agora você sabe como utilizar a ferramenta Amostra em % Aleatória.

Language