P A T H

Machine learning automatizado: Conceitos e importância

Artificial Intelligence e Machine Learning

Machine Learning é uma área de estudo da Artificial Intelligence, onde o foco é criar máquinas que possam simular a inteligência humana. Uma distinção crítica entre Artificial Intelligence e Machine Learning é que os modelos de Machine Learning “aprendem” com os dados aos quais são expostos. Arthur Samuel, pioneiro do Machine Learning em 1959, definiu a área como um “campo de estudo que dá aos computadores a capacidade de aprender sem serem explicitamente programados”. Um algoritmo de Machine Learning treina em um conjunto de dados para fazer previsões. Essas previsões são, muitas vezes, usadas para otimizar um sistema ou ajudar na tomada de decisões.

Sem Título-1_Prancheta 1 (3)

Os avanços tecnológicos tornaram mais fácil a coleta e disponibilização de dados. O tipo de dados disponível determinará o tipo de treinamento que o modelo de Machine Learning pode sofrer. Existem dois tipos de treinamento de Machine Learning, treinamento supervisionado e não supervisionado. Treinamento supervisionado é quando o conjunto de dados contém as informações que você está tentando prever. Para aqueles casos em que os dados previstos não estão presentes, o treinamento é denominado não supervisionado. Ambos os tipos de treinamento definem a relação entre variáveis de entrada (dados que entram para gerar e treinar o modelo) e saída (dados que são gerados a partir do treinamento do modelo). 

Treinamentos no Machine Learning

No Machine Learning, as variáveis ​​de entrada são chamadas de recursos, e as de saída, de rótulos. Os rótulos, neste caso, são o que estamos tentando prever. O objetivo é pegar as entradas (recursos) e usá-las para criar previsões sobre dados nunca vistos antes. Na regressão linear, o recurso é a variável ​​x e o rótulo é a variável ​​y. Um exemplo de rótulo poderia ser o preço futuro de algum produto, alguns recursos que poderiam ser os encontrados no conjunto de dados desse exemplo são preço atual desse produto, quantidade de vendas por dia, preço médio no mercado, etc.

Um modelo de Machine Learning define o relacionamento entre recursos e rótulos. Um modelo pode ser treinado, se for alimentado com exemplos. Exemplos são uma instância específica dos dados. Você pode ter dois tipos de exemplos: rotulados e não rotulados. Exemplos rotulados são aqueles em que os valores x e y (recursos e rótulos) são conhecidos. Exemplos sem rótulo são aqueles onde conhecemos o valor x, mas não sabemos qual é o valor y. Seu conjunto de dados é como um exemplo; as colunas que serão usadas para o treinamento do modelo são os recursos; as linhas são as instâncias desses recursos. A coluna que você deseja prever é o rótulo.

O treinamento supervisionado usa exemplos rotulados e permite que o modelo que está sendo treinado aprenda a relação entre recursos e rótulos. O modelo treinado pode então ser usado em dados não rotulados para prever o valor y ausente. O modelo pode ser testado com dados rotulados ou não rotulados. Testar um modelo treinado com dados não rotulados é chamado de treinamento não supervisionado.

Treinamentos de Modelos

Uma boa prática ao treinar um modelo de Machine Learning é dividir seu conjunto de dados em subconjuntos: treinamento, validação e teste. Uma boa proporção de divisão é 70-15-15, onde 70% de todo o conjunto de dados será para treinamento, 15% para validação e os 15% restantes para teste. O subconjunto de treinamento representa os dados que serão usados ​​para treinar o modelo e precisa ser grande o suficiente para obter resultados significativos. O subconjunto de validação representa os dados que foram retidos no treinamento e serão usados ​​para avaliar e ajustar os hiperparâmetros do modelo treinado e, portanto, ajustar o desempenho. Por fim, o subconjunto de testes representa dados que também foram retidos e serão usados ​​para confirmar os resultados do modelo final.

Mas o que é Machine Learning automatizado e qual é sua importância?

O AutoML ou o Machine Learning automatizado é o processo de automatizar a seleção de algoritmos, geração de recursos, ajuste de hiperparâmetro, modelagem iterativa e avaliação de modelos; tarefas repetitivas que podem demorar semanas ou meses para serem concluídas sem nenhuma plataforma de automatização. As ferramentas de AutoML, como o H2O Driverless AI, facilitam imensamente o treinamento e a validação de modelos de Machine Learning.

A automação das tarefas repetitivas do desenvolvimento de Machine Learning permite que os usuários se concentrem apenas nos dados e nos problemas de negócios que estão tentando resolver.

Quer saber mais?

Veja sobre o H2O Driverless AI, nossa solução especializada em Machine Learning automatizado.

Language