Como escolher um bom modelo de machine learning?
A seleção de um modelo de machine learning é o processo de escolha de um entre muitos modelos candidatos para um problema de modelagem preditiva. Ela pode ser aplicada tanto em diferentes tipos de modelos (por exemplo, redes neurais, kNN) quanto em modelos do mesmo tipo configurados com diferentes hiperparâmetros (por exemplo, números diferentes de vizinhos em implementações de kNN).
Mas o que torna um modelo um bom candidato?
Um modelo bom é aquele que atende aos requisitos e restrições do projeto. Ou seja, ele deve ser suficientemente hábil dado o tempo e os recursos disponíveis.
Embora o desempenho de um modelo seja um critério essencial em sua escolha, ele não é o único. Existem vários fatores adicionais que precisam ser considerados, como complexidade, capacidade de manutenção e recursos disponíveis.
Outros fatores a serem considerados incluem o tamanho do conjunto de dados, a necessidade de interpretabilidade dos resultados e a importância da precisão. Interpretabilidade pode ser um critério decisivo se o modelo será apresentado para possíveis clientes.
Evidentemente, todos os fatores mencionados variam muito de caso a caso, mas existem técnicas de seleção gerais que podem auxiliar em qualquer cenário. As duas principais classes de técnicas de seleção de modelos são medidas probabilísticas e métodos de reamostragem.
Medidas Probabilísticas e Métodos de Reamostragem
Medidas probabilísticas permitem analisar um modelo candidato usando tanto seu desempenho no conjunto de dados de treinamento quanto a sua complexidade. Critério de informação de Akaike (AIC), critério Bayesiano de informação (BIC), comprimento mínimo de descrição (MDL) e minimização de riscos estruturais (SRM) são alguns dos algoritmos que podem ser usados para realizar medidas probabilísticas.
Os métodos de reamostragem buscam estimar o desempenho de um modelo em dados fora da amostra. Isso é conseguido dividindo o conjunto de dados de treinamento em conjuntos de treino e teste. O modelo é ajustado no conjunto de treinamento e avaliado no conjunto de teste. Esse processo pode ser repetido várias vezes e o desempenho médio em cada ensaio é relatado. Validação cruzada e Bootstrap são dois exemplos de métodos de reamostragem.
Veja também:
O que é machine learning (aprendizado de máquina)?
Como machine learning (aprendizado de máquina) funciona?
Como machine learning (aprendizado de máquina) aprende?
Como implementar um modelo de machine learning?
Como escolher um bom modelo de machine learning?
Classificação e regressão em machine learning
O que é conjunto de dados (dataset) em machine learning?
Onde conseguir conjuntos de dados para machine learning?
Salve localmente conjuntos de dados para machine learning
Pré-processamento de dados em machine learning
Regressão Linear e Machine Learning
Conjuntos de treinamento e teste em machine learning
Função de perda em machine learning
Scikit-learn para machine learning
Matrizes de Confusão em Machine Learning
Floresta aleatória com Scikit-learn
Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.