O que você vai aprender?
Nessa dica você irá aprender a utilizar ferramenta Amostra em % Aleatória e suas possibilidades de configuração para extrair uma amostra de dados aleatória de seu fluxo.
INTRODUÇÃO
A ferramenta Amostra em % Aleatória nos permite especificar um número de linhas ou uma porcentagem das linhas. Esse número ou porcentagem de registros será usado para criar uma amostra aleatória de dados, com o número de linhas que foi especificado. Também é possível especificarmos uma semente aleatória.
PASSO 01: CONFIGURANDO A FERRAMENTA
O primeiro passo que devemos seguir na configuração é escolher se queremos especificar um número de registros ou uma porcentagem dos registros.
- N registros aleatórios: Selecione um valor para o número de registros para especificar o número de registros para a saída.
- N% de registros aleatórios: Selecione um valor para porcentagem de registros para especificar a porcentagem de registros recebidos para saída.
A opção Saída Determinista permite selecionar um valor para Seed Aleatório para garantir que o mesmo conjunto de resultados aleatórios seja retornado cada vez que você executar o fluxo de trabalho (desde que a semente aleatória seja a mesma no tempo de execução).
Sempre que colocarmos aquele número de Seed, o mesmo conjunto de dados será obtido.
Exemplo de uso 01: N linhas aleatórias
Com a opção “ N registros aleatórios“, precisamos passar o número de registros que queremos que a amostra tenha, para isso, observe a base inicial de dados:
Note que ela possui um grande número de linhas (20.457), e nesse exemplo, desejamos criar uma amostra aleatória com apenas 500 linhas, para isso vamos configurar a ferramenta da seguinte forma:
Após isso, os dados ficarão assim, podemos ver que são apenas 500 registros:
Exemplo de uso 02: N% de linhas aleatórias
Com a opção “ N% de registros aleatórios“, precisamos passar a porcentagem do total de registros, essa será a quantidade de registros da amostra. Utilizaremos a mesma base do exemplo anterior:
Note que ela possui um grande número de linhas (20457), e nesse exemplo, desejamos criar uma amostra aleatória com apenas 10% do total das linhas originais, para isso vamos configurar a ferramenta da seguinte forma:
Após isso, os dados ficarão assim:
BONUS: a diferença entre a Ferramenta Amostra em % Aleatória e a Ferramenta Amostra
A ferramenta Amostra em % Aleatória e a ferramenta Amostra calculam números aleatórios de forma diferente. Este conjunto de dados contém 20.457 registros. Na imagem acima, cada ferramenta é configurada para retornar uma amostra de 1%.
Na ferramenta Amostra, a opção de 1 em 100 chances de incluir cada linha não retorna exatamente 1% dos dados. Em vez disso, cada linha individual tem 1% de chance de ser selecionada.
Cada vez que este fluxo de trabalho é executado, um número diferente de linhas pode ser retornado. Como podemos ver abaixo, o resultado dessa ferramenta possui 229 registros, que não é 10% de 20.457.
Quando definida para retornar 1% de registros aleatórios, a ferramenta Amostra em % Aleatória gera 205 linhas toda vez que o fluxo de trabalho é executado, mas o conjunto de registros é diferente a cada vez, como podemos ver abaixo: