O que você vai aprender?
Nessa dica você irá aprender a utilizar ferramenta Sample e suas possibilidades de configuração.
INTRODUÇÃO
Muitas vezes precisamos coletar amostras do nossos dados para realizar algum teste ou reduzir a quantidade de dados que será processada.
Use a ferramenta Sample para limitar o fluxo de dados para um número, porcentagem ou conjunto aleatório de linhas especificado. Além disso, é possível agrupar os dados por uma coluna específica.
Passo 1: Configurar a Ferramenta
- Selecione o tipo de amostra. As opções são…
- Primeiras N linhas: retorna todas as linhas nos dados, desde o início até a linha N.
- Últimas N linhas: começando a partir da linha que está a N linhas do final dos dados, retorna todas as linhas até o final dos dados.
- Ignorar as 1ªs N linhas: retorna todas as linhas nos dados, começando depois da linha N.
- 1 de cada N linhas: retorna a primeira linha de cada grupo de N linhas.
- 1 em N chances de incluir cada linha: determina aleatoriamente se cada linha será incluída na amostra, de maneira independente da inclusão de quaisquer outras linhas. Esse método de seleção resulta em N sendo uma aproximação.
- Primeiros N% de linhas: retorna N por cento das linhas. A seleção dessa opção requer que os dados passem pela ferramenta duas vezes: a primeira para contar as linhas e a segunda para retornar a porcentagem de linhas especificada.
- Digite um número na caixa N=para especificar o valor de N.
- Agrupar por coluna (opcional): se um ou mais grupos forem especificados, N linhas serão retornadas para cada grupo. Por exemplo se você escolher agrupar por uma coluna denominada “Cidades”, especificar N como 2 e selecionar “Primeiras N linhas”, o Alteryx retornará as duas primeiras linhas para cada cidade nos dados.
Exemplo de uso:
Temos os dados mostrados abaixo, e desejamos pegar as duas primeiras linhas para cada cidade.
Para isso, vamos configurar a ferramenta da seguinte forma:
Como [City] está selecionada como uma coluna de agrupamento, as duas primeiras linhas para cada cidade são retornadas. Os dados são ordenados de acordo com a coluna de agrupamento.