Gemma 2: novos LLMs
Gemma 2 é o mais novo avanço do Google em sua família de modelos grandes de linguagem (LLMs).
Os novos modelos foram projetados para serem flexíveis e adaptáveis a vários aplicativos. Eles foram desenvolvidos através da introdução de melhorias na arquitetura e recursos dos modelos Gemma. Portanto, os modelos Gemma 2 partem da mesma tecnologia encontrada nos modelos Gemini.
Os modelos lançados são capazes de uma ampla gama de tarefas. Elas incluem a geração de textos, resposta a perguntas, resumo, geração de códigos e resolução de problemas matemáticos. Os modelos Gemma 2 foram treinados com uma coleção diversificada de textos da web contendo uma ampla gama de estilos linguísticos, tópicos e vocabulários. Porém, os novos modelos são particularmente adequados para tarefas de processamento de linguagem natural em inglês.
Modelos de IA com licença permissiva
Gemma 2 é lançado sob uma licença bastante permissiva. Ela permite redistribuição, ajuste fino, uso comercial e criação de trabalhos derivados. O objetivo dessa iniciativa é promover a inovação e a acessibilidade para desenvolvedores e pesquisadores.
As versões do Gemma 2
Gemma 2 inclui diferentes modelos. Na plataforma Hugging Face existem diversas versões disponíveis. Em termos de tamanhos, existem duas variações: uma com 9 bilhões e outra com 27 bilhões de parâmetros. O modelo 9B do Gemma 2 supera modelos comparáveis como o LLaMa 3 8B, enquanto o modelo 27B corresponde à qualidade de modelos maiores, como o Mixtral 8x22B. Esse bom desempenho com uma arquitetura menor deve contribuir para a redução dos custos de implantação. A expectativa é que os novos modelos aumentem a acessibilidade à IA de alto desempenho para uma gama ampla de aplicações.
Inovações técnologicas
Os modelos Gemma 2 incorporam várias inovações técnicas, como sliding window attention, logit soft-capping e destilação de conhecimento. Esses recursos melhoram o desempenho dos modelos, permitindo que eles sejam executados com eficiência em vários hardwares, incluindo TPUs e GPUs NVIDIA.
Outro dado técnico interessante é que os modelos Gemma 2 foram treinados usando JAX e ML pathway. Porém, eles não precisam ser usados apenas com essas tecnologias. Os novos modelos foram projetados para serem integrados facilmente a pacotes tradicionais de IA como Hugging Face Transformers, PyTorch e TensorFlow. Veja abaixo um exemplo de inferência com Gemma 2 usando transformers e PyTorch (exemplo retirado daqui):
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="google/gemma-2-9b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)
# resultado:
# Ahoy, matey! I be a humble ship o' words, sailin' the digital seas. They call me Gemma, a creation o' the fine folks at Google DeepMind. I be trained on a treasure trove o' texts, learnin' to speak and write like a true scallywag.
# Ask me yer questions, and I'll do me best to answer 'em, aye! 🦜📚
Os modelos Gemma-2 podem ser acessados em vários locais, incluindo as plataformas Ollama e Hugging Face.