O que é conjunto de dados (dataset) em machine learning?

Posts Relacionados:

Seleção de recursos com matriz de correlação em Python

Scikit-learn – a melhor escolha para machine learning

Árvore de decisão em machine learning

17.04.24

Conjunto de dados é a matéria-prima da aprendizagem de modelos de machine learning. Conheça melhor esse conceito.

Receba nossa newsletter

O que é conjunto de dados (dataset) em machine learning?

Um conjunto de dados (dataset) é uma coleção de dados. Conjuntos de dados são parte fundamental do processo de treinamento de modelos de machine learning (aprendizado de máquina). Os conjuntos de dados fornecem os dados sobre os quais os modelos de aprendizado de máquina são treinados e testados.

Para analisar dados, é importante saber com que tipo de dados estamos lidando. Os conjuntos de dados podem incluir vários tipos de dados, como valores numéricos, texto, imagens ou gravações de áudio. Podemos dividir os tipos de dados em três categorias principais:

Dados numéricos: dados numéricos são números e podem ser divididos em discretos ou contínuos. Exemplos de dados numéricos incluem preços de casas, ações da bolsa, temperaturas ou outras medições quantitativas.

Dados categóricos: contêm dados divididos em categorias, como sim/não, verdadeiro/falso ou categorias de cores e categorias de nacionalidade (brasileiro, americano, japonês, etc.). Conjuntos de dados categóricos são frequentemente usados para problemas de classificação em machine learning.

Dados Ordinais: dados divididos em categorias que têm uma ordem ou classificação específica, como baixa/média/alta, uma/duas/três estrelas. Os conjuntos de dados ordinais podem ser usados para tarefas de regressão e classificação.

Conjunto de dados estruturados e não estruturados

Além dessa divisão, os conjuntos de dados também podem ser separados em estruturados e não estruturados:

Conjuntos de dados estruturados: são organizados em um formato tabular, com linhas representando observações e colunas representando recursos ou atributos. Dados estruturados são o tipo de dado mais comum usado nos modelos tradicionais de machine learning.

Conjuntos de dados não estruturados: conjuntos de dados que não têm uma estrutura padronizada ou regular. Exemplos típicos são dados de texto, imagens, áudio ou vídeo. Conjuntos de dados não estruturados geralmente exigem etapas trabalhosas e demoradas de pré-processamento antes de poderem ser usados num algoritmo de machine learning. Os longos processos de pré-processamento de textos ilustram bem essa dificuldade.

Dados de alta dimensionalidade e dados esparsos

Os conjuntos de dados podem ser classificados ainda como:

Conjuntos de dados de alta dimensão: conjuntos de dados com inúmeros recursos (atributos). Dados desse tipo podem ser mais difíceis de analisar e comumente precisam ser pré-processados com técnicas de redução de dimensionalidade antes de serem usados em modelos de machine learning.

Conjuntos de dados esparsos: conjuntos de dados que contêm muitos valores ausentes ou nulos. Lidar com a esparsidade é um ponto importante ao trabalhar com esses tipos de conjuntos de dados. Existem várias estratégias para tratar dados ausentes, mas elas precisam ser analisadas caso a caso. A biblioteca Pandas é uma boa ferramenta de auxílio nesses cenários (aqui, aqui e aqui).