Qwen2.5: mega liberação de LLMs abertos

Qwen2.5: mega liberação de LLMs abertos 😍

Posts Relacionados:

A Revolução dos Modelos Pequenos de Linguagem em IA

Qwen2 do Alibaba: a revolução em IA de última geração

A ascensão e queda do Falcon 180B

20.09.24

Conheça a novíssima família Qwen2.5, os LLMs abertos com o melhor desempenho do momento. Além de dominarem 29 línguas, os novos modelos têm versões específicas para codificação e matemática.

Receba nossa newsletter

Novos LLMs abertos

Qwen é uma família de LLMs desenvolvida pela gigante chinesa Alibaba. A segunda geração de LLMs Qwen, chamada Qwen2, foi liberada há apenas 3 meses. Em comparação com os modelos da primeira geração, os modelos da segunda vieram com melhor desempenho e licença permissiva para várias variantes. Agora, o Alibaba inovou de novo.

A empresa liberou ontem a nova versão Qwen2.5. O anúncio envolve modelos de linguagem base e modelos ajustados por instrução, com tamanhos que variam de 0,5 a 72 bilhões de parâmetros. Os modelos são abertos e licenciados sob Apache 2.0, exceto as variantes 3B e 72B.

Segundo o anúncio oficial, essa é, provavelmente, a maior liberação de LLMs da história! Pela lista de modelos disponíveis (imagem abaixo), fica evidente que essa é uma liberação gigante.

LLMs Qwen2.5 e suas especificações (fonte).

Os novos LLMs oferecem suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.

O que são os modelos Qwen2.5?

Os modelos Qwen2.5 contêm vários LLMs e modelos especializados. As versões especializadas incluem modelos de codificação, Qwen2.5-Coder, e específicos para matemática, Qwen2.5-Math. Especificamente, o Qwen2.5-Coder foi treinado em 5,5 trilhões de tokens de dados relacionados a códigos. Enquanto isso, o Qwen2.5-Math suporta chinês e inglês e incorpora vários métodos de raciocínio, incluindo Cadeia de Pensamento (CoT), Programa de Pensamento (PoT) e Raciocínio Integrado a Ferramentas (TIR).

Em termos de estrutura, todos os modelos de peso aberto são modelos de linguagem densos e somente decodificadores.

Os novos LLMs são pré-treinados em um conjunto de dados em grande escala, abrangendo até 18 trilhões de tokens. Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128 mil tokens e podem gerar até 8 mil tokens.

Vários LLMs Qwen2.5 estao disponíveis na plataforma Hugging Face.

Desempenho Fantástico

Qwen2.5 chega ao mundo dos LLMs com desempenho impressionante. Sua versão 72B ajustada para instruções se saiu melhor do que o Mistral-Large2, o Llamma3.1-70B e o gigante Llama-3.1-405B em vários benchmarks. Esse desempenho coloca o Qwen2.5 entre os melhores modelos disponíveis.