O que você vai aprender?
No mundo da análise de dados, os desafios relacionados à qualidade dos dados são significativos. Frequentemente, os dados chegam mal formatados ou não seguem padrões adequados para serem utilizados em ferramentas de Business Intelligence (BI).
Introdução:
Em muitos casos, as ferramentas de BI conseguem dar conta desses desafios de forma nativa, entretanto, existem situações em que elas podem não atender de forma completa ao que se é proposto.
No caso do Tableau, temos o Tableau Prep Builder, uma ferramenta de preparação e limpeza de dados que se destaca principalmente pela sua interface intuitiva e interatividade com os resultados gerados. Muito embora a ferramenta sofra atualizações constantes e já contemple diversas funcionalidades, ainda existe uma gama de necessidades que ela ainda não atende.
Para esses cenários, a ferramenta disponibiliza a capacidade de utilizar scripts python no fluxo de dados, permitindo a manipulação avançada de modelos de dados.
O que é o Python?
Python é uma linguagem de programação de alto nível utilizada para diversas finalidades. No contexto do Tableau Prep Builder, o python pode ser utilizado para extender as capacidades de preparação e limpeza de dados da ferramenta através de programação.
Configurando a conexão com o Tableau Prep
No cenário que estamos testando hoje, precisamos aplicar uma funcionalidade no Tableau Prep que não é nativa da ferramenta. Repare na imagem abaixo, que ao incluir uma etapa de script, o Tableau prep mostra uma mensagem de erro.
Essa mensagem indica que o Tableau Prep não está conseguindo se conectar ao servidor que é responsável pela execução de scripts python. Inicialmente, é preciso realizar as configurações demonstradas abaixo. Vale ressaltar que esse passo precisa ser feito apenas uma vez, no momento da configuração do ambiente.
- Baixar e instalar a versão mais atual do python, de acordo com o seu sistema operacional.
OBS: No momento em que essa dica está sendo criada, a última versão disponível do python é a 3.12.4, mas ele está continuamente sofrendo atualizações. Certifique-se de fazer o download da última versão.
Na etapa de instalação, certificar de adicionar o python ao PATH. Isso irá garantir que o sistema operacional consiga identificar corretamente o executável do python no computador sem que o usuário precise indicar a todo momento o local onde este executável está salvo. Essa etapa deve ser realizada na etapa de instalação, conforme imagem abaixo.
Após a instalação, verifique se o python foi instalado e adicionado corretamente o PATH. Para isso, basta abrir um prompt de comando no Windows e digitar python.
Se uma tela similar a essa acima aparecer, quer dizer que o python foi corretamente instalado. Se por algum motivo essa mensagem não aparecer, reinstale o python novamente.
- Baixar e instalar o servidor Tableau Python (Tabpy)
Por precauções quanto à possíveis conflitos de sistema operacional e/ou outros ambientes de desenvolvimento que possam existir no seu computador, é sugerido fazer a instalação do Tabpy em um ambiente virtual, seguindo as instruções abaixo:
- Instalar o pacote virtualenv
Em um prompt de comando, digitar o código pip install virtualenv
- Criar um ambiente virtual. Substituir <meu_ambiente> por um nome de sua escolha.
Ainda no prompt de comando, digite virtualenv <meu_ambiente> para criar o ambiente virtual. Um ambiente virtual nada mais é do que um espaço de trabalho isolado no computador, que permite que versões conflitantes de softwares e pacotes coexistam sem interferência uns dos outros.
OBS: Uma dica importante aqui, procure criar ambientes virtuais em um diretório que seja de fácil acesso e que não misture com outros itens do seu computador. Você pode alcançar esse objetivo navegando pelo diretório e abrir um prompt de comando diretamente na pasta desejada. Repare que ao criar o ambiente virtual, uma pasta foi criada no local indicado no comando virtualenv, como demonstrado abaixo.
- Ativar o ambiente virtual
No prompt de comando, navegue até a pasta “Scripts” utilizando o comando “cd”, criada juntamente com o ambiente virtual e ative o ambiente virtual usando o comando activate.
- Instalar o pacote Tabpy
Com o ambiente virtual configurado, deve ser feita a instalação do tabpy através do comando pip install tabpy.
- Executar o Tabpy
Basta digitar tabpy no prompt de comando (com o ambiente virtual ligado) para executar o servidor.
Configurando a extensão de analytics no Tableau Prep
Com o TabPy ativado, falta apenas uma etapa: configurar a extensão de analytics no Tableau Prep Builder. No menu ajuda, selecionar Configurações e desempenho > Gerenciar conexão da extensão do analytics.
Na tela seguinte, as informações de conexão irão aparecer conforme a imagem abaixo. Se o servidor exigir usuário e senha ou utilizar criptografia SSL, os campos devem ser preenchidos de acordo com esses valores.
Se tudo der certo, a mensagem de erro deverá sumir, como na imagem abaixo.