Qwen2 do Alibaba: a revolução em IA de última geração

Posts Relacionados:

A Revolução dos Modelos Pequenos de Linguagem em IA

A ascensão e queda do Falcon 180B

CoT: prompts que induzem o “raciocínio” de LLMs

21.08.24

Qwen2 é uma série de modelos de IA com desempenho e versatilidade aprimorados em várias aplicações de linguagem. Conheça a nova família e a veja em ação.

Receba nossa newsletter

Qwen2: a família inovadora de LLMs do Alibaba

Qwen2 é uma série de modelos de linguagem (LLMs) de código aberto desenvolvida pela Alibaba Cloud. Lançada em junho, a família já é considerada um avanço. Os modelos Qwen2 foram projetados para se destacar na compreensão de linguagem natural, codificação e criação de conteúdos. Dominando várias línguas com fluência, esses modelos são perfeitos para aplicativos Python que precisam funcionar em português. Eles foram treinados em 27 línguas além do chinês e inglês.

Em termos de capacidades, os novos LLMs chegam com desempenho e versatilidade aprimorados em várias aplicações. Eles superaram os benchmarks para LLMs de código aberto, demonstrando capacidades superiores em tarefas multilíngues e de raciocínio matemático.

Aplicações

Qwen2 apresenta bons desempenhos em tarefas de codificação e matemática, sendo reconhecido por seu caráter multilíngue avançado. Portanto, os novos modelos podem ser usados para várias aplicações. Elas incluem gerar textos a partir de instruções, responder a perguntas, realizar traduções automáticas, gerar códigos para diversos projetos e em diversas linguagens, resolver problemas e muito mais.

Série de modelos disponível em vários tamanhos

A série abrange modelos de linguagem base e modelos de linguagem ajustados para instrução. No total, são cinco tamanhos de modelos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, and Qwen2-72B (obs.: B se refere a bilhões de parâmetros). Os modelos foram liberados em duas versões: pré-treinados e já ajustados para instruções.

Os novos LLMs, particularmente as versões ajustadas por instrução, suportam comprimentos de contexto estendidos de até 128k tokens. Esse recurso permite que eles lidem com grandes conjuntos de dados e tarefas complexas com eficiência.

A arquitetura dos novos modelos

A série Qwen2 é composta por grandes modelos de linguagem baseados em Transformers contendo mecanismos de autoatenção com máscaras causais (self-attention with causal masks). Especificamente, a arquitetura dos Qwen2 possui modelos densos de linguagem de 4 escalas e um modelo Mixture-of-Expert (MoE). (Obs.: MoE é uma técnica em que várias redes de especialistas são combinadas para resolver um problema).

A arquitetura dos modelos densos compreende várias camadas Transformers, cada uma equipada com mecanismos de atenção causal e redes neurais feed-forward (FFNs).

A principal diferença estrutural entre os modelos MoE e os modelos densos é que as camadas do MoE incorporam várias FFNs, cada uma servindo como um especialista individual. Você pode ler mais detalhes sobre os modelos aqui.

Licença bastante permissiva

O Qwen2 está disponível para fins comerciais e de pesquisa. Embora o modelo Qwen2-72B e os modelos ajustados para instruções usem a licença Qianwen, todos os outros modelos, incluindo Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B e Qwen2-57B-A14B, adotam a licença Apache 2.0!

Veja onde encontrar os modelos para integração com Python

Os novos modelos estão disponíveis em vários lugares, incluindo a plataforma Hugging Face, no GitHub, através do Ollama e através da API da OpenAI (veja aqui).

Qwen2 em ação com Python

Para mostrar um pouco as habilidades da série, executamos alguns testes com o modelo 1.5B acessado com o pacote Ollama para Python. Um código simples para executar o Qwen2 com Python e Ollama é mostrado abaixo. Os detalhes básicos sobre esse código podem ser encontrados aqui ou aqui.

				
					import ollama

# inicia o cliente ollama
client = ollama.Client()

# defina seu prompt
context = "defina seu contexto aqui"
question = "defina sua instrução aqui."
prompt = f"Context: {context}\n\nQuestion: {question}"

# especifica o modelo para responder ao prompt
response = client.generate(model="qwen2:1.5b", prompt=prompt)

# imprime a resposta
print("Resposta do Qwen2:", response['response'])

A seguir, mostraremos os testes que fizemos apenas mostrando as instruções utilizadas e a respostas obtidas. Lembre-se que testamos um modelo pequeno (1.5B). Com modelos maiores, as respostas teriam provavelmente sido ainda melhores do que as obtidas.

Geração de textos

Instrução para o modelo: explique o que é um modelo grande de linguagem em cerca de 100 palavras.

				
					Resposta do Qwen2: Um modelo de linguagem grande, também conhecido como "recurso" ou "base", em IA refere-se a um conjunto de dados e algoritmos complexos projetados para entender e aprender uma linguagem natural específica. Esses modelos são capazes de gerar conversas informativas ou criativas, baseadas em uma sequência única de palavras conhecidas. Uma grande vantagem desses modelos é sua capacidade de aprender com um grande volume de dados, o que os torna extremamente úteis para tarefas complexas como assistentes virtuais e chatbots.

Escrita criativa

Instrução para o modelo: escreva uma poesia sobre o Rio de Janeiro.

				
					Resposta do Qwen2: Claro, aqui está uma versão simples de uma poemagem intitulada "Rio de Janeiro - Noite":

Abaixo do céu azul,
Rio de Janeiro, tu desce,
Estranho rio amarelo,
Elevando as águas, sempre vivo.

Luzes aceso, coroas,
Crescem em torno de tua água,
Folhas de árvores, flores,
O aroma de uma cidade viva.

A ponta do teu berço,
Viva no coração da gente.
Chuva e sol, vento e calor,
Tu amas a nossa vida, Rio.

Rosa do Brasil,
Nossa cidade é grande,
Noites longas, dias curtos,
De amor, de risos, de choros.

Teu nome é nosso, teus sonhos,
Teus sonhos são nossos.
Teu sangue nos corações, teus amores nos entrelaçados,
Em cada coração do Rio, tu és a nossa esperança. 


Rio de Janeiro - NOITE


Espero que isso tenha inspirado uma poemagem interessante!

Codificação

Instrução para o modelo: escreva um código em Python que abre um dataframe do pandas e calcula a média dos valores apenas em um intervalo selecionado.

				
					Resposta do Qwen2: Claro, aqui está um exemplo simples de como você poderia fazer isso. Vamos considerar o DataFrame 'df' da célula `A1` no seu código, mas é importante notar que você pode usar qualquer índice de seus dados.

Assumindo que a coluna para a qual queremos calcular a média esteja na célula `B1`, e você deseja filtrar as linhas onde a coluna 'C' está entre 50 e 200, o código seria:

```python
# Importa pandas
import pandas as pd

# Define a coluna para filtrar no DataFrame
column_to_filter = "C"

# Define a lista de intervalos para filtrar na coluna 
intervals = [50, 200]

# Cria um DataFrame
dataframe = pd.read_excel('your_file.xlsx') # Por favor substitua 'your_file.xlsx' pelo caminho real do seu arquivo Excel

# Filtra os dados da coluna C
filtered_data = dataframe[dataframe[column_to_filter].isin(intervals)]

# Calcula a média da coluna D
average = filtered_data['D'].mean()

print(average)
```

Lembrando que essa é uma opção de código simples, mas pode haver necessidade de um tratamento diferente caso a coluna 'C' não possua valores dentro desse intervalo. Também lembre-se de substituir `your_file.xlsx` pelo caminho real do seu arquivo Excel.

Certifique-se de que o seu DataFrame seja válido para operações matemáticas, pois Python pode ter problemas com dados NaN (out of range). 

Além disso, é importante lembrar que a eficiência e o desempenho da função dependem fortemente do tamanho dos dados. Em um caso onde os dados sejam muito grandes ou complexos, você poderia querer pensar em outros métodos para calcular médias, como utilizar pandas' `groupby` para filtrar primeiro, em seguida calculando a média individualmente.

Também é importante lembrar que o código deve ser feito com consideração às licenças do software usado, por exemplo, se está usando um código aberto ou se é necessário obter permissão adicional.

Conclusões

A nova série Qwen2 chega como mais uma promessa bastante promissora do mundo dos LLMs. Para desenvolvedores Python, sua licença Apache a coloca como uma excelente opção para quem deseja desenvolver aplicativos alimentados com IA. Para conhecer mais sobre os modelos, veja a documentação oficial aqui e aqui.