DeepSeek V3 e R1: as mais famosas IAs do mundo

Nas últimas semanas, a empresa chinesa de IA DeepSeek ganhou a comunidade de IA e o mundo com seus inovadores LLMs (Large Language Models). Entre essas inovações está o notável contraste entre seus modelos DeepSeek V3 e R1.
Nesta postagem do blog, vamos nos aprofundar nas principais diferenças entre esses dois modelos, explorando como eles diferem em termos de arquitetura, objetivos de treinamento e desempenho.
DeepSeek-R1: O Pioneiro do Raciocínio
Lançado em 2024 em modo preview, o modelo R1 da DeepSeek é um marco significativo no desenvolvimento de IA. Este modelo de Mistura de Especialistas (MoE) possui impressionantes 37B parâmetros ativados por token e 671B parâmetros no total. Ele é treinado por meio de aprendizado por reforço em larga escala com foco nas capacidades de raciocínio. O modelo atinge desempenho comparável ao OpenAI-o1 em tarefas de matemática, código e raciocínio (imagem abaixo).

O desempenho impressionante do modelo DeepSeek-R1 (fonte).
Dois estágios principais de treinamento são parte integrante do modelo R1. Um deles consiste em duas etapas de aprendizado por reforço. Elas descobrem padrões de raciocínio aprimorados e alinham as preferências humanas. O outro estágio possui duas fases de ajuste fino supervisionado (Supervised Fine-tuning, SFT). Elas são usadas para semear capacidades de raciocínio e não raciocínio. A abordagem de vários estágios permite que o modelo R1 se destaque em tarefas que exigem raciocínio e contexto diferenciados.
DeepSeek-V3: A potência eficiente
Em 2025, a DeepSeek revelou seu modelo V3, um modelo de mistura de especialistas (MoE) de parâmetro 671B de código aberto com 37B parâmetros ativados por token. O que diferencia o V3 é seu balanceamento de carga inovador e recursos de previsão de vários tokens.

A estrutura da rede neural do DeepSeek V3 (fonte).
Treinado em impressionantes 14,8 trilhões de tokens, o modelo V3 alcança desempenho de última geração em benchmarks, mantendo uma eficiência notável nos custos de treinamento (apenas 2,788 milhões de horas de GPU H800). Seu regime de treinamento otimizado permite uma implantação mais rápida de modelos de IA, tornando-o um divisor de águas na área.
Principais diferenças entre o R1 e V3
Então, o que diferencia esses dois modelos? Vamos resumir:
Objetivos de treinamento: o R1 se concentra nas capacidades de raciocínio por meio de aprendizado por reforço e estágios de semeadura, enquanto o V3 otimiza o desempenho em benchmarks com balanceamento de carga inovador.
Arquitetura: ambos os modelos usam Mix-of-Experts (MoE), mas o V3 incorpora recursos adicionais, como previsão de vários tokens, aumentando sua eficiência.
Desempenho: embora ambos os modelos alcancem resultados comparáveis ao OpenAI-o1 em tarefas específicas, o R1 brilha no raciocínio e nas tarefas dependentes do contexto.
Conclusão
Os modelos V3 e R1 da DeepSeek representam uma nova fronteira no desenvolvimento de IA. Conforme continuamos a ultrapassar os limites da IA, manter-nos informados sobre os desenvolvimentos de ponta é a chave para o sucesso. Fique de olho em mais atualizações sobre o trabalho inovador da DeepSeek e como ele molda o mundo da IA.