Search
Close this search box.
O que é conjunto de dados (dataset) em machine learning?
conjunto de dados

Posts Relacionados:

Conjunto de dados é a matéria-prima da aprendizagem de modelos de machine learning. Conheça melhor esse conceito.

Receba nossa newsletter

O que é conjunto de dados (dataset) em machine learning?

dataset

Um conjunto de dados (dataset) é uma coleção de dados. Conjuntos de dados são parte fundamental do processo de treinamento de modelos de machine learning (aprendizado de máquina). Os conjuntos de dados fornecem os dados sobre os quais os modelos de aprendizado de máquina são treinados e testados.

Para analisar dados, é importante saber com que tipo de dados estamos lidando. Os conjuntos de dados podem incluir vários tipos de dados, como valores numéricos, texto, imagens ou gravações de áudio. Podemos dividir os tipos de dados em três categorias principais:

Dados numéricos: dados numéricos são números e podem ser divididos em discretos ou contínuos. Exemplos de dados numéricos incluem preços de casas, ações da bolsa, temperaturas ou outras medições quantitativas.

Dados categóricos: contêm dados divididos em categorias, como sim/não, verdadeiro/falso ou categorias de cores e categorias de nacionalidade (brasileiro, americano, japonês, etc.). Conjuntos de dados categóricos são frequentemente usados para problemas de classificação em machine learning.

Dados Ordinais: dados divididos em categorias que têm uma ordem ou classificação específica, como baixa/média/alta, uma/duas/três estrelas. Os conjuntos de dados ordinais podem ser usados para tarefas de regressão e classificação.

Conjunto de dados estruturados e não estruturados

Além dessa divisão, os conjuntos de dados também podem ser separados em estruturados e não estruturados:

Conjuntos de dados estruturados: são organizados em um formato tabular, com linhas representando observações e colunas representando recursos ou atributos. Dados estruturados são o tipo de dado mais comum usado nos modelos tradicionais de machine learning.

Conjuntos de dados não estruturados: conjuntos de dados que não têm uma estrutura padronizada ou regular. Exemplos típicos são dados de texto, imagens, áudio ou vídeo. Conjuntos de dados não estruturados geralmente exigem etapas trabalhosas e demoradas de pré-processamento antes de poderem ser usados num algoritmo de machine learning. Os longos processos de pré-processamento de textos ilustram bem essa dificuldade.

Dados de alta dimensionalidade e dados esparsos

Os conjuntos de dados podem ser classificados ainda como:

Conjuntos de dados de alta dimensão: conjuntos de dados com inúmeros recursos (atributos). Dados desse tipo podem ser mais difíceis de analisar e comumente precisam ser pré-processados com técnicas de redução de dimensionalidade antes de serem usados em modelos de machine learning.

Conjuntos de dados esparsos: conjuntos de dados que contêm muitos valores ausentes ou nulos. Lidar com a esparsidade é um ponto importante ao trabalhar com esses tipos de conjuntos de dados. Existem várias estratégias para tratar dados ausentes, mas elas precisam ser analisadas caso a caso. A biblioteca Pandas é uma boa ferramenta de auxílio nesses cenários (aqui, aqui e aqui).

Encontrou algum erro ou quer fazer uma sugestão? Por favor, entre em contato usando nosso formulário de contatos.

Imagem com IA Generativa – Dia 102

IA generativa img102

Arte com IA generativa: imagem do dia

Todos os dias, postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial