Onde conseguir conjuntos de dados para machine learning?
Modelos de machine learning precisam de dados para treinamento. Quando fazemos tutoriais, isso parece uma tarefa simples. Porém, no mundo real, a obtenção de dados de qualidade pode ser um gargalo na construção de bons modelos. Mesmo quando construímos um modelo usando dados de clientes ou obtidos diretamente por nós com técnicas como web scraping, dados de outras fontes são sempre muito bem vindos. Eles são excelentes para validar o modelo e evitar vieses. Por isso, saber onde obter dados é fundamental.
Até alguns anos atrás, conseguir dados era um problema. Mas isso já mudou. Atualmente, é possível conseguir dados sobre os mais variados assuntos em sites governamentais, de empresas e em algumas plataformas. Veja uma lista de sugestões.
Google e Amazon
Algumas empresas de tecnologia têm dados disponíveis e, frequentemente, de graça. Google e Amazon são dois grandes exemplos desse caso. Os dados podem ser consultados no AWS Public Datasets e Google Dataset Search.
Kaggle
O Kaggle é uma fonte inesgotável de conjuntos de dados dos mais variados assuntos e formatos, inclusive com vários em português do Brasil. Vale a pena olhar a variedade imensa disponível. Muitos dos conjuntos de dados do Kaggle são usados em tutoriais no próprio site da plataforma e são uma fonte imensa de aprendizado de graça para quem tem interesse por machine learning.
UCI Machine Learning Repository
UCI Machine Learning Repository é um repositório super tradicional que disponibiliza conjuntos de dados comumente usados no ensino de machine learning como o conjunto iris. A grande vantagem desse repositório é contar com dados organizados de forma muito padronizada, o que é ótimo para quem é iniciante.
Sites Governamentais
Vários governos disponibilizam dados em abundância em sites oficiais. No Brasil, o INPE, o CEASA, IBGE e Banco Central são apenas alguns exemplos. Se você tem interesse nesses dados, certamente não terá dificuldades em encontrá-los.
Hugging Face
A plataforma Hugging Face é o local certo para quem tem interesse em redes neurais do tipo deep learning. Além de contar com muitos modelos pré-treinados, a Hugging Face está cheia de conjuntos de dados bem diversificados. Assim como o Kaggle, os dados são submetidos por usuários da plataforma. Consequentemente, a qualidade dos conjuntos varia muito. Mas, com uma pequena procura, sempre dá para obter dados excelentes e fazer a festa. A plataforma conta com vários conjuntos de dados em português.
Veja também:
O que é machine learning (aprendizado de máquina)?
Como machine learning (aprendizado de máquina) funciona?
Como machine learning (aprendizado de máquina) aprende?
Como implementar um modelo de machine learning?
Como escolher um bom modelo de machine learning?
Classificação e regressão em machine learning
O que é conjunto de dados (dataset) em machine learning?
Onde conseguir conjuntos de dados para machine learning?
Salve localmente conjuntos de dados para machine learning
Pré-processamento de dados em machine learning
Regressão Linear e Machine Learning
Conjuntos de treinamento e teste em machine learning
Função de perda em machine learning
Scikit-learn para machine learning
Matrizes de Confusão em Machine Learning
Floresta aleatória com Scikit-learn
Detecção de anomalias com Isolation Forest
Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.