P A T H

Buscando Informações diretamente de Sites

O que você vai aprender?

Em muitas ocasiões precisamos buscar informações diretamente da internet e traze-las para o nosso fluxo de forma automatizada, mas nem sempre temos acesso a uma API gratuita.

Nessa dica, vamos mostrar como extrair diretamente para o seu fluxo, informações de sites na internet utilizando a ferramenta Download.

INTRODUÇÃO

Informações públicas são essenciais para enriquecer nossas bases de dados, normalmente utilizada para acompanhamento de taxas ou atualizações na área de impostos.

Para ilustrar nossa dica, vamos extrair informações do site da Receita Federal, referentes a rendimentos de capital.

Passo 1: Identifique as informações do site

O primeiro passo é abrir o site em um navegador e identificar onde está a tabela e/ou informação que deseja ser extraída

Neste caso podemos observar que nossa imagem está localizada entre as frases “Fundos de longo prazo e aplicações de renda fixa, em geral:” e “Fundos de curto prazo:”, desta forma podemos utilizar ambas como identificadores do conteúdo desejado.

Outra forma é identificar a localização do mesmo através de uma análise do código da página. O mesmo pode ser acessado ao apertar a tecla F12 na página da web

Dessa forma, será exibido na parte direita da página todo o código referente a mesma, e será possível clicar na parte superior direita, no símbolo de mouse sinalizado na imagem acima. Com essa ferramenta ativa é possível clicar em qualquer parte da página e identificar o código referente a mesma, podendo assim identificar melhor o conteúdo desejado.

Passo 2: Importando as informações para o fluxo

Após identificadas, precisamos trazer as informações para o fluxo, e o primeiro passo é a inclusão de uma ferramenta de “Text Input” incluir o link do site desejado (o mesmo utilizado no passo 1)

Após inclusão do link, iremos inserir uma ferramenta de Download que irá abrir o site informado e trazer para o fluxo todo o código do mesmo (exibido na imagem 2 do primeiro passo)

Passo 3: Filtrando apenas as informações necessárias

Após termos em nosso fluxo o site completo, precisaremos filtrar o campo de texto em 2 partes, a primeira e mais essencial é usar a ferramenta de “Data Cleansing” para remover “múltiplas linhas” e “quebras de linha”, dessa forma teremos todo o código em linha única separado apenas por espaço único.

A segunda parte de limpeza é filtrar através de uma ferramenta de “Regex” para termos apenas as informações úteis para a base, em nosso exemplo iremos configurar a ferramenta “RegEx” conforme a imagem com a seguinte expressão regular “(Fundos de longo prazo e aplicações de renda fixa, em geral:.+?Fundos de curto prazo:)”, onde iremos inserir as 2 frases identificadas no Passo 1 e entre elas o seguinte comando “ .+? “ (sem as aspas), identificando que será mantido tudo entre as duas frases selecionadas

Resultado em texto, do campo  “ConteudoFiltrado”:

Fundos de longo prazo e aplicações de renda fixa, em geral:

  • 22,5% para aplicações com prazo de até 180 dias;
  • 20% para aplicações com prazo de 181 até 360 dias;
  • 17,5% para aplicações com prazo de 361 até 720 dias;
  • 15% para aplicações com prazo acima de 720 dias;

Passo 3: Finalizando a Limpeza

Em sua etapa final serão realizadas as últimas limpezas na base de dados, e nesse ponto tudo irá depender da complexidade da informação a ser utilizada, no caso de tabelas serão necessárias uma série de ferramentas como “Transpose”, “Cross Tab”, “Multi-Row Formula” e/ou “RegEx”.

Para o nosso exemplo iremos utilizar uma nova ferramenta “RegEx” para transformar o conteúdo tratado no passo anterior em linhas contendo apenas as informações úteis.

Neste ponto basta realizar mais uma pequena limpeza com a ferramenta de Fórmula para remoção do texto de “<span>” e temos a nossa base final.

16 de outubro de 2020

Pronto, você aprendeu a inserir informações de sites diretamente no seu fluxo com a ferramenta de Download!

Language