O que você vai aprender?
O PDF é o tipo de documento mais utilizado devido a sua segurança e impossibilidade de alteração, mas também muita das vezes ele traz muitas informações que precisam ser analisadas e processadas pelas áreas de negócio, nesse momento nos encontramos em um empasse “como transformar o PDF em dados?”, e para realizar essa tarefa no Alteryx podemos utilizar a ferramenta PDF Input
Passo 1: Instalando a ferramenta PDF Input
O primeiro passo é acessar a Alteryx Gallery (https://gallery.alteryx.com/#!app/PDF-Input/5b685aff0462d710907f7a3b) e realizar o download da ferramenta PDF Input
Após finalizado o download do arquivo PDF Input.yxi, será necessário realizar a instalação da ferramenta dentro do Alteryx Designer, fazendo assim com que a nova ferramenta fique disponível no grupo de IN/OUT
Passo 2: Configurando a Ferramenta PDF Input
Com a ferramenta instalada, podemos incluir ela ao nosso fluxo. Em suas configurações são requisitadas 2 informações, a primeira é o diretório onde se encontram os arquivos PDF, e a segunda é o nome do arquivo PDF.
Assim como outras ferramentas de Input, podemos utilizar o Wildcard * em suas configurações, possibilitando assim trazer para o fluxo vários documentos PDF de forma simultânea
Passo 3: Analisando os dados
A saída de ferramenta irá apresentar uma linha para cada PDF, onde todo o conteúdo do arquivo estará concatenado em uma única celula
A partir deste ponto é necessário tratar os dados de acordo com o formato dos dados dentro do PDF, a melhor ferramenta para realizar esta tarefa é a de RegEx, onde poderemos extrair todos os dados relevantes do nosso PDF e transformá-lo no formato de tabela para poder ser utilizado em novas análises