Meta Chameleon
Recentemente, a Meta lançou o Chameleon, uma nova família de modelos de inteligência artificial (IA) multimodal. Meta Chameleon representa um avanço significativo em direção à modelagem unificada de documentos multimodais completos.
Modelos multimodais têm sido amplamente adotados recentemente, mas eles ainda modelam diferentes modalidades separadamente. A novidade do Meta Chameleon é ser uma família de modelos de fundação modal mista. Ou seja, eles podem gerar e lidar com sequências mistas de conteúdo de texto e imagem. O Chameleon usa uma arquitetura uniforme treinada do zero em uma mistura intercalada de todas as modalidades. Isso garante um modelo com geração e raciocínio contínuos entre as modalidades.
Arquitetura de Fusão Inicial
A arquitetura dos modelos Chameleon usa tokens de fusão inicial projetados para compreender e produzir imagens e textos em sequências arbitrárias. Essa arquitetura diferencia o Chameleon dos modelos tradicionais. Ao contrário da abordagem de fusão tardia, onde modelos separados processam diferentes modalidades antes de combiná-las, o Chameleon integra texto, imagens e outras entradas desde o início. Esse espaço de tokens unificados permite que o Chameleon receba e gere sequências intercaladas de textos e imagens sem problemas. Além disso, o Chameleon cria um vocabulário misto que inclui tokens de texto, códigos e imagens. Ele codifica imagens em tokens discretos semelhantes a palavras em um modelo de linguagem. Isso permite que o modelo aplique a mesma arquitetura de transformer em sequências contendo tokens de imagem e texto. Como consequência, ele tem uma capacidade aumentada de executar tarefas que exigem uma compreensão simultânea de várias modalidades.
Esquema de como o Chameleon integra e gera diferentes modalidades (fonte).
Treinamento
Os modelos Chameleon foram treinados com um conjunto de dados de alta qualidade de 4,4 trilhões de tokens. O conjunto de treinamento incluiu textos, pares de imagem e texto e sequências intercaladas.
Desempenho
Os novos modelos passaram por uma avaliação abrangente em diversas tarefas. Elas incluíram resposta a perguntas visuais, legendagem de imagens, geração de textos e imagens e geração modal mista. Segundo os autores do modelo, o Chameleon demonstra desempenho de última geração em tarefas de legendagem de imagens. Ele supera o Llama-2 em tarefas de texto. Seu desempenho multimodal é compatível com modelos como Mixtral 8x7B e Gemini-Pro.