IA DeepSeek: um furacão inesperado

Na semana passada, reportamos uma novidade que já entrou para a história. Em uma reviravolta que chocou o mundo da inteligência artificial (IA), pesquisadores da empresa chinesa DeepSeek desenvolveram com sucesso a melhor IA disponível atualmente.
O novo sistema consiste em um modelo de linguagem grande (LLM) de código aberto chamado DeepSeek-R1 (modificado a partir do DeepSeek-V3). Embora lançado oficialmente na última semana, ele já estava disponível em versão preview desde novembro.
A nova IA pertence à classe dos modelos mais poderosos da atualidade, já contendo “raciocínio”. Isso não significa que ela pensa como um ser humano, mas que ela tem a capacidade de verificar suas saídas e refletir sobre elas para gerar respostas melhores.
A IA DeepSeek-R1, lançada oficialmente no último dia 20, pegou o mundo de surpresa. Embora a China seja uma potência em IA, ninguém esperava tamanho sucesso tão rapidamente. E vindo de uma empresa pequena, ainda pouco conhecida na área. Neste post, explicaremos as causas para tanta euforia.
Por que tanto espanto? Desempenho excelente, baixo custo e inovação
O rebuliço em torno do DeepSeek-R1 se justifica por 3 fatores principalmente: desempenho, custo baixo e inovação.
A nova IA demonstrou superar os LLMs mais avançados atualmente disponíveis no mercado. Mesmo em comparação ao modelo mais potente da OpenAI, o DeepeSeek-R1 tem desempenho comparável nos testes padrões da área. Em vários testes, a novidade chinesa se saiu até melhor que o caro concorrente da OpenAI.

O desempenho impressionante do DeepSeek-R1 (fonte).
No entanto, o que é realmente notável sobre a conquista do DeepSeek-R1 é que ele realizou esse feito por uma fração do custo de seus colegas americanos. O investimento da empresa na IA foi de cerca de US$ 6 milhões, o que é significativamente menor do que as centenas de milhões gastos pela OpenAI e pelo Google em seus modelos atuais. Para se ter uma ideia da diferença de custo, o Llama 3.1 405B da Meta custou US$ 60 milhões e usou 11 vezes mais recursos de computação do que o DeepSeek-R1, que é maior (mais de 600B).
O desempenho impressionante do DeepSeek-R1 é atribuído ao seu pipeline inovador. Entre as principais novidades do pipeline estão a presença de dois estágios de aprendizado por reforço e ajuste fino não-supervisionado em etapas.
O uso de chips Nvidia H800 menos potentes, proibidos para exportação para a China em 2022, também desempenhou um papel crucial no sucesso do DeepSeek. Ou seja, as sanções que os americanos impuseram na tentativa de frear o desenvolvimento tecnológico chinês tiveram o resultado oposto. Inadvertidamente, as sanções americanas aceleraram o progresso chinês na construção da IA mais eficiente e famosa do momento.
IA Barata, de código aberto e acessível a todos
Além de barata e excelente, a IA DeepSeek-R1 foi liberada como código aberto e com licença MIT. Ela pode ser usada para uso pessoal e comercial. Ela também pode ser modificada a partir de técnicas como destilação. Ou seja, ela é totalmente acessível a desenvolvedores que desejam aproveitar seu poder para criar apps fantásticos – e com raciocínio!

Até a revista nature comemora a liberação da IA DeepSeek-R1 como código aberto (fonte).
Os preços para quem deseja usar a API da empresa em apps profissionais são muito mais baratos do que os concorrentes. Plugar seu app na API DeepSeek custa cerca de 3% do preço da API do ChatGPT. Essa diferença também se deve a suas inovações tecnológicas que contribuíram não apenas para um treinamento barato, mas para custos de inferência muito menores!

IA DeepSeek: comparação de preços com outras IAs (fonte).
Efeito DeepSeep já afunda Nvidia
Desde seu lançamento, há pouco mais de uma semana, o efeito DeepSeek já é devastador para os players tradicionais. A nova IA já ultrapassou o rival americano ChatGPT em downloads do site da Apple. Consequentemente, investidores globais começaram a vender ações de tecnologia nesta segunda-feira, preocupados com os efeitos de um modelo de IA de baixo custo sobre o domínio de líderes de IA como a Nvidia, recentemente alçada a posição de empresa mais valiosa do mundo. O efeito DeepSeek já fez evapar mais de US$ 500 bilhões do valor de mercado da fabricante de chips, uma perda recorde em um dia para qualquer empresa em Wall Street.

IA DeepSeek fez as ações da Nvidia terem a pior queda de sua história (fonte).
Onde e como acessar a novidade
A IA DeepSeek-R1 pode ser acessada de várias formas. Uma versão um pouco mais básica do modelo, o DeepSeek-V3, pode ser acessada através do site da empresa. Você pode baixar o app diretamente no seu celular ou acessar esse link. Você pode fazer consultas a ela de forma exatamente igual às consultas feitas a outras IAs como Gemini e ChatGPT.
Para desenvolvedores, o R1 está disponível por meio de API ou via download do modelo. Para quem deseja conhecer melhor o modelo, ele pode ser baixado de plataformas como Hugging Face e Ollama. Mas lembre-se: esse é um modelo gigante de mais de 600 bilhões de parâmetros. Portanto, ele precisa ser baixado e analisado em sistemas muito específicos.
Se você deseja acessá-la por API, consulte o site da empresa. Os preços são extremamente atraentes (a partir de US $ 0.14 por milhão de token).

IA DeepSeek e seus preços muito convidativos (fonte).