Hugging Face prepara versão turbinada do DeepSeek

Posts Relacionados:

Circulação de modelos de IA começa a ter restrições

Instagram: a maior implementação feita em Django do mundo

QwQ-Max: Alibaba brilha com nova super IA com raciocínio

30.01.25

Pegando uma carona no furacão DeepSeek, Hugging Face lança o projeto Open-R1 para replicar a IA DeepSeek-R1 do zero e disponibilizar todos os seus componentes abertamente.

Receba nossa newsletter

Hugging Face vai recriar DeepSeek-R1

No mundo em rápida evolução da inteligência artificial (IA), pesquisadores e empresas estão constantemente ultrapassando os limites do que é possível. Na semana passada, a DeepSeek lançou seu inovador modelo de IA de “raciocínio”, R1, que botou fogo no parquinho da indústria de tecnologia. Mas, segundo as más línguas, falta transparência à novidade. Embora o modelo tenha sido liberado como código aberto, ele não está totalmente aberto ao escrutínio. Segundo os críticos, essa falha se deve à falta de transparência em seu processo de desenvolvimento (inveja mata!).

Para sanar essa falha terrível, a Hugging Face lançou o projeto Open-R1. O objetivo da iniciativa é replicar o R1 do zero e disponibilizar todos os seus componentes abertamente. A equipe por trás do projeto acredita que o “conhecimento aberto” é essencial para o avanço da pesquisa de IA e garantir que os benefícios dessas tecnologias sejam acessíveis a todos. Esperamos que eles comecem a cobrar transparência das empresas americanas também, como a OpenAI, Google e Anthropic!

O problema com os modelos caixa-preta

O R1 é um modelo altamente impressionante que rivaliza com o modelo de raciocínio o1 da OpenAI em desempenho em vários benchmarks (imagem abaixo). Ele foi liberado como código aberto, mas sem fornecer acesso ao seu código ou instruções de treinamento. Isso tornou difícil para os pesquisadores estudar o modelo em profundidade e orientar seu comportamento. Conforme os críticos, ter acesso ao conjunto de dados e ao processo de treinamento é fundamental para implantar um modelo de forma responsável em áreas sensíveis. Isso também ajuda a entender e abordar os possíveis vieses no modelo.

Replicação e Pesquisa

O projeto Open-R1 visa replicar o R1. A equipe planeja gerar conjuntos de dados semelhantes aos usados pela DeepSeek e construir um pipeline de treinamento que possa ser contribuído pelas comunidades de tecnologia mais amplas no GitHub. Mesmo antes de seu lançamento, o projeto Open-R1 já atraiu um interesse significativo da comunidade. Se for bem-sucedida, essa iniciativa não apenas fornecerá uma forte replicação de código aberto do R1, mas também estabelecerá as bases para o desenvolvimento de modelos de raciocínio de código aberto de próxima geração.

Conclusão

Conforme continuamos a testemunhar os limites do que é possível com a IA serem ultrapassados, é essencial priorizar a abertura e a transparência em nossas práticas de pesquisa. O projeto Open-R1 é mais uma ferramenta importante nesse caminho, demonstrando o poder da colaboração e do desenvolvimento voltado para a comunidade. Vamos torcer para que eles também mirem as empresas americanas como Google, Anthropic e OpenAI na busca por transparência e colaboração. Até lá, seguiremos comemorando o sucesso da DeepSeek e de seus modelos revolucionários, baratos e muito mais transparentes do que os dos concorrentes!