O que é conjunto de dados (dataset) em machine learning?
Um conjunto de dados (dataset) é uma coleção de dados. Conjuntos de dados são parte fundamental do processo de treinamento de modelos de machine learning (aprendizado de máquina). Os conjuntos de dados fornecem os dados sobre os quais os modelos de aprendizado de máquina são treinados e testados.
Para analisar dados, é importante saber com que tipo de dados estamos lidando. Os conjuntos de dados podem incluir vários tipos de dados, como valores numéricos, texto, imagens ou gravações de áudio. Podemos dividir os tipos de dados em três categorias principais:
Dados numéricos: dados numéricos são números e podem ser divididos em discretos ou contínuos. Exemplos de dados numéricos incluem preços de casas, ações da bolsa, temperaturas ou outras medições quantitativas.
Dados categóricos: contêm dados divididos em categorias, como sim/não, verdadeiro/falso ou categorias de cores e categorias de nacionalidade (brasileiro, americano, japonês, etc.). Conjuntos de dados categóricos são frequentemente usados para problemas de classificação em machine learning.
Dados Ordinais: dados divididos em categorias que têm uma ordem ou classificação específica, como baixa/média/alta, uma/duas/três estrelas. Os conjuntos de dados ordinais podem ser usados para tarefas de regressão e classificação.
Conjunto de dados estruturados e não estruturados
Além dessa divisão, os conjuntos de dados também podem ser separados em estruturados e não estruturados:
Conjuntos de dados estruturados: são organizados em um formato tabular, com linhas representando observações e colunas representando recursos ou atributos. Dados estruturados são o tipo de dado mais comum usado nos modelos tradicionais de machine learning.
Conjuntos de dados não estruturados: conjuntos de dados que não têm uma estrutura padronizada ou regular. Exemplos típicos são dados de texto, imagens, áudio ou vídeo. Conjuntos de dados não estruturados geralmente exigem etapas trabalhosas e demoradas de pré-processamento antes de poderem ser usados num algoritmo de machine learning. Os longos processos de pré-processamento de textos ilustram bem essa dificuldade.
Dados de alta dimensionalidade e dados esparsos
Os conjuntos de dados podem ser classificados ainda como:
Conjuntos de dados de alta dimensão: conjuntos de dados com inúmeros recursos (atributos). Dados desse tipo podem ser mais difíceis de analisar e comumente precisam ser pré-processados com técnicas de redução de dimensionalidade antes de serem usados em modelos de machine learning.
Conjuntos de dados esparsos: conjuntos de dados que contêm muitos valores ausentes ou nulos. Lidar com a esparsidade é um ponto importante ao trabalhar com esses tipos de conjuntos de dados. Existem várias estratégias para tratar dados ausentes, mas elas precisam ser analisadas caso a caso. A biblioteca Pandas é uma boa ferramenta de auxílio nesses cenários (aqui, aqui e aqui).
Veja também:
O que é machine learning (aprendizado de máquina)?
Como machine learning (aprendizado de máquina) funciona?
Como machine learning (aprendizado de máquina) aprende?
Como implementar um modelo de machine learning?
Como escolher um bom modelo de machine learning?
Classificação e regressão em machine learning
O que é conjunto de dados (dataset) em machine learning?
Onde conseguir conjuntos de dados para machine learning?
Salve localmente conjuntos de dados para machine learning
Pré-processamento de dados em machine learning
Regressão Linear e Machine Learning
Conjuntos de treinamento e teste em machine learning
Função de perda em machine learning
Scikit-learn para machine learning
Matrizes de Confusão em Machine Learning
Floresta aleatória com Scikit-learn
Detecção de anomalias com Isolation Forest
Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.