Nova IA Qwen2.5-Max: desempenho melhor do que DeepSeek

Nova IA Qwen2.5-Max estreia com desempenho melhor do que DeepSeek

Posts Relacionados:

Gemini irá acessar seu histórico de buscas

DeepSeek reabre API após pausa de três semanas

Resumo diário: Meta admite excesso de moderação

29.01.25

China segue tratorando todo mundo da área de inteligência artificial (IA). Depois do furacão DeepSeek, tem mais revolução a caminho. Alibaba Cloud lança IA Qwen2.5-Max!

Receba nossa newsletter

IA Qwen2.5-Max chega causando

Depois da revolução causada pelo DeepSeek, se prepare para mais novidades surpreendentes em inteligência artificial (IA) vindas da China. E elas devem tratorar mais gente…

Como noticiamos, embora o DeepSeek-R1 tenha sido lançado oficialmente em janeiro, ele estava disponível em modo preview desde novembro. Um pouco após a sua liberação em preview, outro modelo com raciocínio surgiu: o QwQ, da gigante chinesa Alibaba Cloud. Agora, depois do sucesso do DeepSeek-R1, a Alibaba Cloud volta para o ringue com a nova IA Qwen2.5-Max.

O Qwen2.5-Max é um modelo de IA que rivaliza com o DeepSeek-V3. O DeepSeek-V3 é uma IA mais básica destilada com recursos do DeepSeek-R1.

Para a alegria dos desenvolvedores, a Alibaba Cloud é extremamente comprometida com a democratização da IA e costuma liberar seus modelos em código aberto e sem muitas restrições para aplicações, inclusive para fins comerciais. Porém, não está claro se o novo Qwen2.5-Max será liberado como código aberto. Por enquanto, não achamos nenhuma informação a esse respeito. A IA QwQ da empresa está disponível em código aberto para quem tiver interesse.

A Alibaba afirma que sua nova IA supera o DeepSeek-V3 em desempenho (veja imagem abaixo). Com este lançamento, agora estamos vendo que não apenas as empresas americanas estão intensificando a corrida da IA contra os chineses, mas a concorrência local também quer ficar à frente.

Desempenho comparativo do novo Qwen2.5-Max (fonte).

O que é Qwen2.5-Max?

É amplamente reconhecido que o dimensionamento contínuo do tamanho dos dados e do modelo pode levar a melhorias significativas na inteligência do modelo. No entanto, a comunidade de pesquisa e indústria tem experiência limitada no dimensionamento eficaz dos modelos de IA extremamente grandes, como os melhores modelos grandes de linguagem (LLMs) disponíveis atualmente. Muitos detalhes críticos sobre o processo de dimensionamento só foram conhecidos com o recente lançamento do DeepSeek V3.

Qwen2.5-Max é um modelo de mistura de especialistas (MoE) em larga escala. Na esteira das melhorias técnicas observadas com o DeepSeek-R1, o Qwen2.5-Max foi pré-treinado em mais de 20 trilhões de tokens e pós-treinado com metodologias de Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Feedback Humano (RLHF). Recém-liberado, por enquanto ele está disponível na sua API por meio do Alibaba Cloud. Também é possível explorar o Qwen2.5-Max no Qwen Chat.

Como o Qwen2.5-Max acabou de ser liberado, os detalhes sobre ele ainda são poucos. Abaixo, mostramos os resultados com seu desempenho nos melhores benchmarks de IA.