Floresta Aleatória
Floresta aleatória é um método de aprendizado em conjunto que utiliza a combinação de várias árvores de decisão para fazer previsões. Esse algoritmo pode ser usado para classificação, regressão e outras tarefas em machine learning. Portanto, a floresta aleatória é um algoritmo versátil de machine learning. Assim como outras técnicas de aprendizado em conjunto, ela combina vários modelos para criar um modelo melhor e com boa capacidade preditiva. Ao combinar as previsões de várias árvores de decisão, as florestas aleatórias geralmente alcançam maior precisão do que as árvores de decisão individuais.
Em consequência, florestas aleatórias produzem resultados precisos, mesmo sem ajuste extensivo de hiperparâmetros. Elas capturam eficientemente relacionamentos não lineares em dados complexos, e gerenciam bem conjuntos de dados de alta dimensão.
As florestas aleatórias são amplamente utilizadas em vários setores. Entre algumas das tarefas em que essa técnica é usada estão modelagem financeira, previsões de saúde e análise do comportamento do consumidor.
Florestas Aleatórias e Aprendizado em Conjunto
Tecnicamente, uma floresta aleatória opera construindo várias árvores de decisão durante o treinamento e combinando suas saídas para fazer previsões. Ela usa amostragem de bootstrap (bagging) para criar diversos subconjuntos de dados de treinamento para cada árvore.
Esquema de uma floresta aleatória combinando árvores de decisão (fonte).
Para adicionar diversidade e reduzir a correlação entre árvores, a floresta aleatória emprega seleção aleatória de recursos ao dividir nós. A aleatoriedade injetada ajuda a evitar que o modelo memorize os dados de treinamento muito de perto, melhorando sua capacidade de generalizar dados inéditos.
Depois de treinadas, as florestas aleatórias conseguem fornecer insights sobre quais recursos são mais influentes para fazer as previsões. Essa compreensão é especialmente importante quando o algoritmo precisa ser usado em produção, onde a interpretabilidade de seus resultados é essencial.
Floresta Aleatória: o Algoritmo
O algoritmo de floresta aleatória cria uma infinidade de árvores de decisão. Cada árvore é treinada em um subconjunto aleatório dos dados. Em cada ponto de divisão na árvore, uma seleção aleatória de recursos é considerada.
Após o treinamento, quando um ponto de dados alimenta o modelo, ele passa por todas as árvores da floresta. Cada árvore faz uma previsão com base em suas regras de decisão aprendidas. A previsão final do modelo depende da tarefa (classificação ou regressão) específica. Para tarefas de classificação, a saída é a classe selecionada pela maioria das árvores. Ou seja, a previsão final corresponde ao rótulo da classe que recebe mais votos das árvores individuais. Para tarefas de regressão, a previsão média ou média de árvores individuais é retornada.
Veja também:
O que é machine learning (aprendizado de máquina)?
Como machine learning (aprendizado de máquina) funciona?
Como machine learning (aprendizado de máquina) aprende?
Como implementar um modelo de machine learning?
Como escolher um bom modelo de machine learning?
Classificação e regressão em machine learning
O que é conjunto de dados (dataset) em machine learning?
Onde conseguir conjuntos de dados para machine learning?
Salve localmente conjuntos de dados para machine learning
Pré-processamento de dados em machine learning
Regressão Linear e Machine Learning
Conjuntos de treinamento e teste em machine learning
Função de perda em machine learning
Scikit-learn para machine learning
Matrizes de Confusão em Machine Learning
Floresta aleatória com Scikit-learn
Detecção de anomalias com Isolation Forest
Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.