Aprenda a executar DeepSeek-R1 localmente com Python

Posts Relacionados:

Qwen2.5: mega liberação de LLMs abertos 😍

BitNet: LLMs de 1.58 bits a caminho?

A Revolução dos Modelos Pequenos de Linguagem em IA

03.03.25

Aprenda como você pode aproveitar todo o potencial do DeepSeek-R1 localmente com Python usando a plataforma Ollama, uma solução leve e fácil de usar.

Receba nossa newsletter

DeepSeek-R1 com Python

Conforme a inteligência artificial (IA) continua a revolucionar as indústrias em todo o mundo, o acesso a modelos poderosos como o DeepSeek-R1 se torna cada vez mais crucial. Nesta postagem do blog, vamos nos aprofundar em como você pode aproveitar todo o potencial do DeepSeek-R1 usando localmente a plataforma Ollama executada com Python.

Ollama é uma solução leve e fácil de usar projetada para otimizar o desempenho. Ao mesmo tempo, ela oferecer controle total sobre seus dados e fluxos de trabalho.

O que é Ollama?

Ollama é uma plataforma inovadora que permite aos usuários executar modelos de IA como o DeepSeek-R1 em suas máquinas locais, eliminando a necessidade de soluções baseadas em nuvem. Ao fazer isso, você pode desfrutar de segurança incomparável, latência reduzida, personalização e acesso offline – todos recursos essenciais para projetos confidenciais ou com uso intensivo de recursos. Além disso, Ollama conta com um pacote para Python que permite a execução de modelos de IA diretamente através de códigos. Desta maneira, podemos facilmente inserir os melhores modelos de IA em nossos aplicativos.

Por que executar o DeepSeek-R1 localmente?

Executar modelos de IA como o DeepSeek-R1 localmente com o Ollama tem várias vantagens, incluindo:

Privacidade dos dados: mantenha seus dados seguros e privados, evitando soluções proprietárias baseadas em nuvem.

Redução de tempo de latência: as operações locais podem apresentar tempos de processamento mais rápidos.

Realize configurações de ajuste fino: personalize os modelos de IA para atender às suas necessidades específicas.

Desenvolva projetos no seu tempo e com segurança: manipule os modelos quantas vezes quiser para adequá-los a seus projetos sem expor suas ideias.

Trabalhe offline: acesse os modelos de IA sem precisar de conectividade constante com a internet.

Pré-requisitos

Antes de começar a usar Ollama, certifique-se de ter:

Pelo menos 16 GB de RAM (recomendado) e uma GPU para desempenho ideal.
A versão mais recente do Ollama instalada em sua máquina. Baixe o instalador do site oficial da Ollama para o seu sistema operacional.
Para usar Ollama com Python, instale também o pacote ollama. A instalação pode ser feita com pip:

				
					pip install ollama

DeepSeek-R1 com Ollama e Python

A primeira geração de modelos de raciocínio do DeepSeek inclui o modelo R1 e mais seis modelos densos destilados do DeepSeek-R1 baseados em Llama e Qwen.

O modelo DeepSeek-R1 é muito grande (mais de 600 bilhões de parâmetros) para rodar num computador regular. Felizmente, as versões destiladas têm tamanhos variados, incluindo diversos tamanhos adequados para execuções em sistemas locais. Se você quer testar vários modelos, visite o link aqui e selecione as opções mais adequadas para seus projetos. Os modelos precisam ser baixados para poderem ser usados localmente. Isso pode ser feito com o comando abaixo digitado num terminal:

				
					ollama pull especifique_o_modelo_aqui

Para especificar o modelo, verifique seu nome no site do Ollama. Nesse post, usaremos um modelo pequeno: o destilado DeepSeek-R1 baseado no Qwen de 1.5B de tamanho. Com esse tamanho enxuto, essa versão é ideal para ser executada com baixo custo computacional. Ele pode ser baixado com o comando:

				
					ollama pull deepseek-r1:1.5b

Se tudo correr bem, você deve ver mensagens como essas no seu terminal:

DeepSeek-R1 com códigos Python

Usar o DeepSeek-R1 com Ollama é muito fácil. Num código Python, importe a biblioteca Ollama:

				
					import ollama

Depois, inicie um cliente Ollama:

				
					client = ollama.Client()

Em seguida, defina um contexto. Esse é um passo opcional para a composição de prompts, mas importante para garantir boas respostas com os modelos de linguagem em IA. Veja um exemplo de como definir um contexto abaixo:

				
					contexto = """
        Aja com um programador especialista em Python
"""

Após o contexto, defina uma tarefa/questão para o modelo responder:

				
					tarefa = """
        Escreva uma pequena mensagem de boas-vindas para a comunidade de desenvolvedores Python do Brasil explicando quem você é.
"""

Em seguida, montamos o prompt completo com o contexto e a tarefa:

				
					prompt = f"Contexto: {contexto}\n\Tarefa: {tarefa}"

Depois, enviamos o prompt para o modelo e imprimimos a resposta gerada:

				
					response = client.generate(model="deepseek-r1:1.5b", prompt=prompt)
print("Resposta do DeepSeek-R1 baseado no Qwen-1.5B:", response['response'])

Modelo com raciocínio em ação

Se você executar o código acima, verá uma resposta com duas partes, como a mostrada abaixo:

				
					Resposta do DeepSeek-R1 baseado no Qwen-1.5B: <think>
Okay, the user is asking me to write a small hello message in Portuguese for the Python developers community in Brazil. Hmm, I should make it welcoming and friendly.

First, I need to explain who I am—Aja, a developer with expertise in Python. Maybe mention that I'm based there because it's my home country. That makes sense.

I want to show appreciation by thanking everyone for being part of the community. It's important to let them know they're valued and respected here.

I should include something about how I can assist, like solving problems or sharing knowledge. Ending with an emoji like 🌈 gives a friendly touch.

I need to keep it concise but warm. Make sure the translation is accurate and natural in Portuguese.
</think>

Claro! Eu é Aja, um developor especialista em Python e também mi do Brasil. Estou aqui para ajudar comma complemento e aprender de maneira互助a! Agradço vocês por serem parte da comunidade dos developsolvers brasileiros e pelo seu aparelhar. Como posso ajudá-lo hoje?

A primeira parte da resposta, indicada por <think> </think>, contém o processo de raciocínio que o modelo usou para chegar à resposta final. A segunda parte consiste na resposta em si.

No nosso exemplo, enviamos uma mensagem em português. Note que o processo de pensamento foi feito em inglês, língua que o modelo domina bem. Infelizmente, a mensagem final veio em português macarrônico. Embora o modelo original Qwen domine bem mais de 30 línguas, a versão destilada 1.5B para o DeepSeek-R1 sofre claramente com o português. Portanto, antes de usá-la em projetos, verifique suas necessidades. Se necessário, teste vários modelos e selecione aqueles que forem adequados para o seu caso. Outra possibilidade é montar um pipeline com um modelo com raciocínio e outro “normal” somente para fazer a tradução e corrigir o estilo linguístico.

Pronto! Agora você já tem DeepSeek-R1 destilado para raciocinar localmente.