Falcon 180B: o falcão com voo de galinha
No mundo da inteligência artificial (IA), não é incomum que tecnologias novas e inovadoras gerem imenso entusiasmo entre os entusiastas. No entanto, quando esses modelos de ponta não cumprem suas promessas, pode ser uma experiência humilhante para desenvolvedores e usuários. Um desses modelos é o Falcon 180B.
Lançado pelo Instituto de Inovação Tecnológica (TII) dos Emirados Árabes Unidos em setembro de 2023, o Falcon 180B conquistou a comunidade LLM de código aberto como uma grande promessa na área. Este modelo gigante possui impressionantes 180 bilhões de parâmetros e 3,5 trilhões de tokens, superando significativamente seus antecessores como o Falcon 40B. Inicialmente, ele foi reportado como o melhor modelo de acesso aberto atualmente e um dos melhores modelos em geral.
Com seus enormes 180 bilhões de parâmetros e dados de treinamento impressionantes, o Falcon 180B foi apontado como o novo padrão para modelos de linguagem de código aberto. Suas capacidades foram apresentadas como estando no mesmo nível de modelos proprietários como o PaLM-2, tornando-o um dos LLMs mais capazes conhecidos publicamente.
Desempenho do Falcon 180B em comparação com outros modelos na época de seu lançamento (fonte).
No entanto, apesar de seu hype inicial, o Falcon 180B não correspondeu às expectativas. O desempenho do modelo na tabela de classificação do Hugging Face caiu significativamente desde o seu lançamento, passando de uma pontuação impressionante de 68,74 para uma classificação bem inferior.
O que deu errado?
Mas, afinal, o que deu errado? Vários fatores contribuem para o declínio do desempenho do Falcon 180B:
Atualizações da tabela de classificação: novos benchmarks e metodologias de avaliação alteraram as classificações gerais.
Dificuldades para realizar ajuste fino: devido ao seu tamanho enorme, poucos pesquisadores ou organizações tentaram ajustar o modelo. Isso potencialmente limita suas melhorias de desempenho.
Custo computacional altíssimo: o Falcon 180B requer aproximadamente 400 GB de VRAM para desempenho ideal. Essa imensa necessidade de recursos o torna inacessível para a maioria das empresas e pesquisadores de médio porte.
Alto custo para inferências: o custo para executar inferências neste modelo pode chegar a milhares de dólares, o que é proibitivamente caro para muitos pesquisadores e entusiastas de IA.
Comparação com modelos menores: modelos menores e ajustados agora superam o Falcon 180B na tabela de classificação, destacando a importância do treinamento direcionado sobre o tamanho do modelo. O modelo Phi-4, da Microsoft, é um excelente exemplo de LLM com ótimo desempenho e tamanho enxuto.
Limitações dos benchmarks: as tabelas de classificação padrão podem não refletir totalmente o desempenho ou os recursos do mundo real que não são facilmente quantificados nos benchmarks.
Conclusões
A história do Falcon 180B serve como um lembrete de que o hype e a promessa nem sempre são garantias de sucesso. Mesmo os modelos de IA mais inovadores e poderosos requerem desenvolvimento, ajuste fino e avaliação cuidadosa para atingir todo o seu potencial. Além disso, eles precisam ser financeiramente acessíveis para serem usados e se popularizarem. E, no mundo dos LLMs, o custo das inferências pode ser muito salgado mesmo para modelos de código. Ao reconhecermos as limitações dos modelos atuais e trabalhar ativamente para melhorá-los, podemos criar sistemas de IA mais eficazes, confiáveis e econômicos e que beneficiem a sociedade na totalidade.