Gemma 3: novo modelo de IA aberto do Google
O mundo da IA costuma ser dominado por modelos massivos com enormes contagens de parâmetros, tokens infinitos e a necessidade de muito poder de computação. Indo na contramão dessa tendência, o Google acaba de lançar o Gemma 3. A novidade, além de ser aberta, foi projetada especificamente para desenvolvedores que precisam criar modelos de IA que podem ser executados em uma variedade de ambientes, de data centers a smartphones.
Observação: embora “aberto”, o contrato de licença do Google para uso do Gemma 3 tem limitações.

Eficiência como foco
Ao contrário de muitos outros modelos de IA que dependem de clusters de servidores massivos para alimentar seus cálculos, o Gemma 3 foi desenvolvido com a eficiência em mente. Este modelo foi projetado para ser executado eficazmente em uma única GPU ou acelerador de IA – o que significa que você não precisa de um data center enorme para experimentá-lo. Essa abordagem permite que os desenvolvedores executem seus modelos de IA em configurações de hardware menores, tornando-os mais acessíveis e práticos para uma ampla gama de usuários. Além disso, o foco do modelo na eficiência permite que os desenvolvedores reduzam os custos de computação e melhorem o desempenho geral de seus aplicativos.
Principais recursos e capacidades
Alguns dos principais recursos e capacidades do modelo Gemma 3 do Google incluem:
1. Modelagem multimodal: o Gemma 3 é capaz de processar textos, imagens de alta resolução e até vídeos, tornando-o uma excelente opção para aplicativos que exigem interação com vários tipos de dados.
2. Expansão da janela de contexto: a janela de contexto foi expandida para 128.000 tokens dos 8.192 tokens anteriores, permitindo que o modelo enfrente tarefas mais desafiadoras e complexas.
3. Recursos de segurança de imagem: a solução ShieldGemma 2 do Google ajuda a bloquear imagens indesejadas em três categorias de conteúdo: perigosa, sexual ou violenta.
4. Otimização de eficiência: o Gemma 3 foi projetado com a eficiência em mente, permitindo que os desenvolvedores executem seus modelos de IA em configurações de hardware menores.
5. Poliglota: Gemma 3 domina mais de 140 idiomas.
Variantes
O Gemma 3 vem em vários tamanhos, permitindo que você escolha a versão que melhor se adapta ao seu hardware. Você pode encontrar modelos que variam de uma versão minúscula de 1 bilhão de parâmetros (que pode ser executada em quase tudo) a uma versão mais substancial de 27 bilhões de parâmetros. Mesmo os modelos maiores podem ser executados com precisão de 4 bits, reduzindo os requisitos de memória.
Como usar o Gemma 3?
O Google disponibilizou a versão mais recente do Gemma 3 on-line no Google AI Studio, permitindo que os desenvolvedores ajustem seu treinamento usando ferramentas como Google Colab e Vertex AI. Você também pode baixar o modelo gratuitamente de repositórios como Kaggle ou Hugging Face, embora esteja ciente de que o contrato de licença do Google pode limitar o que você pode fazer com ele.
Gemma 3 com Python e Ollama
Evidentemente, Gemma 3 também pode ser usado diretamente em Python com Ollama. Para isso, é preciso garantir que sua versão do Ollama é a mais recente possível. Faça o upgrade para o seu sistema operacional. Depois, escolha um modelo do Gemma 3 para baixar. Para baixar o modelo 4b, digite no terminal:
ollama pull gemma3:4b
Em seguida, num código Python, inicie o cliente Ollama, defina um prompt, alimente o modelo com ele e obtenha a resposta:
import ollama
# inicia o cliente
client = ollama.Client()
# prompt com contexto
contexto = """
Aja com um especialista em Python
"""
instrucao = """
Use streamlit para criar um aplicativo para converter imagens.
"""
prompt = f"Contexto: {contexto}\n\nInstrução: {instrucao}" # define prompt
response = client.generate(model="gemma3:4b", prompt=prompt) # alimento modelo com prompt
# imprime a resposta
print("Resposta do Gema 3:", response)
Conclusão
Em conclusão, Gemma 3 é um modelo de IA inovador projetado para revolucionar a maneira como os desenvolvedores criam e implantam modelos de IA. Seu foco em eficiência, recursos de modelagem multimodal e recursos de segurança de imagem o tornam uma opção atraente para uma ampla gama de aplicações e bolsos.