Google lança novos LLMs: Gemma 2

Google lança nova família de LLMs: Gemma 2

Posts Relacionados:

Perplexity AI foi turbinada com Deep Research!

Sky-T1: novo modelo de IA com raciocínio e de código aberto

Autenticação de usuários segura: criptografia, hash e salting

10.08.24

Novidades no mundo dos LLMs. Google acaba de lançar uma nova família de modelos de IA de alto desempenho e com licença bem permissiva.

Receba nossa newsletter

Gemma 2: novos LLMs

Gemma 2 é o mais novo avanço do Google em sua família de modelos grandes de linguagem (LLMs).

Os novos modelos foram projetados para serem flexíveis e adaptáveis a vários aplicativos. Eles foram desenvolvidos através da introdução de melhorias na arquitetura e recursos dos modelos Gemma. Portanto, os modelos Gemma 2 partem da mesma tecnologia encontrada nos modelos Gemini.

Os modelos lançados são capazes de uma ampla gama de tarefas. Elas incluem a geração de textos, resposta a perguntas, resumo, geração de códigos e resolução de problemas matemáticos. Os modelos Gemma 2 foram treinados com uma coleção diversificada de textos da web contendo uma ampla gama de estilos linguísticos, tópicos e vocabulários. Porém, os novos modelos são particularmente adequados para tarefas de processamento de linguagem natural em inglês.

Modelos de IA com licença permissiva

Gemma 2 é lançado sob uma licença bastante permissiva. Ela permite redistribuição, ajuste fino, uso comercial e criação de trabalhos derivados. O objetivo dessa iniciativa é promover a inovação e a acessibilidade para desenvolvedores e pesquisadores.

As versões do Gemma 2

Gemma 2 inclui diferentes modelos. Na plataforma Hugging Face existem diversas versões disponíveis. Em termos de tamanhos, existem duas variações: uma com 9 bilhões e outra com 27 bilhões de parâmetros. O modelo 9B do Gemma 2 supera modelos comparáveis como o LLaMa 3 8B, enquanto o modelo 27B corresponde à qualidade de modelos maiores, como o Mixtral 8x22B. Esse bom desempenho com uma arquitetura menor deve contribuir para a redução dos custos de implantação. A expectativa é que os novos modelos aumentem a acessibilidade à IA de alto desempenho para uma gama ampla de aplicações.

Inovações técnologicas

Os modelos Gemma 2 incorporam várias inovações técnicas, como sliding window attention, logit soft-capping e destilação de conhecimento. Esses recursos melhoram o desempenho dos modelos, permitindo que eles sejam executados com eficiência em vários hardwares, incluindo TPUs e GPUs NVIDIA.

Outro dado técnico interessante é que os modelos Gemma 2 foram treinados usando JAX e ML pathway. Porém, eles não precisam ser usados apenas com essas tecnologias. Os novos modelos foram projetados para serem integrados facilmente a pacotes tradicionais de IA como Hugging Face Transformers, PyTorch e TensorFlow. Veja abaixo um exemplo de inferência com Gemma 2 usando transformers e PyTorch (exemplo retirado daqui):

from transformers import pipeline
import torch

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-9b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
    do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)

# resultado:
# Ahoy, matey! I be a humble ship o' words, sailin' the digital seas. They call me Gemma, a creation o' the fine folks at Google DeepMind. I be trained on a treasure trove o' texts, learnin' to speak and write like a true scallywag.

# Ask me yer questions, and I'll do me best to answer 'em, aye!