Search
Close this search box.
Onde conseguir conjuntos de dados para machine learning?
Machine learning dataset

Posts Relacionados:

Quem tem a intenção de desenvolver modelos de machine learning precisa dados. Por isso, é fundamental conhecer onde obtê-los de graça.

Receba nossa newsletter

Onde conseguir conjuntos de dados para machine learning?

machine learning python

Modelos de machine learning precisam de dados para treinamento. Quando fazemos tutoriais, isso parece uma tarefa simples. Porém, no mundo real, a obtenção de dados de qualidade pode ser um gargalo na construção de bons modelos. Mesmo quando construímos um modelo usando dados de clientes ou obtidos diretamente por nós com técnicas como web scraping, dados de outras fontes são sempre muito bem vindos. Eles são excelentes para validar o modelo e evitar vieses. Por isso, saber onde obter dados é fundamental.

Até alguns anos atrás, conseguir dados era um problema. Mas isso já mudou. Atualmente, é possível conseguir dados sobre os mais variados assuntos em sites governamentais, de empresas e em algumas plataformas. Veja uma lista de sugestões.

Google e Amazon

Algumas empresas de tecnologia têm dados disponíveis e, frequentemente, de graça. Google e Amazon são dois grandes exemplos desse caso. Os dados podem ser consultados no AWS Public Datasets e Google Dataset Search.

Kaggle

O Kaggle é uma fonte inesgotável de conjuntos de dados dos mais variados assuntos e formatos, inclusive com vários em português do Brasil. Vale a pena olhar a variedade imensa disponível. Muitos dos conjuntos de dados do Kaggle são usados em tutoriais no próprio site da plataforma e são uma fonte imensa de aprendizado de graça para quem tem interesse por machine learning.

UCI Machine Learning Repository

UCI Machine Learning Repository é um repositório super tradicional que disponibiliza conjuntos de dados comumente usados no ensino de machine learning como o conjunto iris. A grande vantagem desse repositório é contar com dados organizados de forma muito padronizada, o que é ótimo para quem é iniciante.

Sites Governamentais

Vários governos disponibilizam dados em abundância em sites oficiais. No Brasil, o INPE, o CEASA, IBGE e Banco Central são apenas alguns exemplos. Se você tem interesse nesses dados, certamente não terá dificuldades em encontrá-los.

Hugging Face

A plataforma Hugging Face é o local certo para quem tem interesse em redes neurais do tipo deep learning. Além de contar com muitos modelos pré-treinados, a Hugging Face está cheia de conjuntos de dados bem diversificados. Assim como o Kaggle, os dados são submetidos por usuários da plataforma. Consequentemente, a qualidade dos conjuntos varia muito. Mas, com uma pequena procura, sempre dá para obter dados excelentes e fazer a festa. A plataforma conta com vários conjuntos de dados em português.

Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.

Imagem com IA Generativa – Dia 102

IA generativa img102

Arte com IA generativa: imagem do dia

Todos os dias, postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial