Search
Close this search box.
Meta Chameleon: nova família de IA multimodal
IA Meta Chameleon

Posts Relacionados:

Meta Chameleon é uma nova família de modelos IA multimodais. A novidade promete integrar diferentes tipos de informação melhor do que seus antecessores.

Receba nossa newsletter

Meta Chameleon

Recentemente, a Meta lançou o Chameleon, uma nova família de modelos de inteligência artificial (IA) multimodal. Meta Chameleon representa um avanço significativo em direção à modelagem unificada de documentos multimodais completos.

Modelos multimodais têm sido amplamente adotados recentemente, mas eles ainda modelam diferentes modalidades separadamente. A novidade do Meta Chameleon é ser uma família de modelos de fundação modal mista. Ou seja, eles podem gerar e lidar com sequências mistas de conteúdo de texto e imagem. O Chameleon usa uma arquitetura uniforme treinada do zero em uma mistura intercalada de todas as modalidades. Isso garante um modelo com geração e raciocínio contínuos entre as modalidades.

Arquitetura de Fusão Inicial

A arquitetura dos modelos Chameleon usa tokens de fusão inicial projetados para compreender e produzir imagens e textos em sequências arbitrárias. Essa arquitetura diferencia o Chameleon dos modelos tradicionais. Ao contrário da abordagem de fusão tardia, onde modelos separados processam diferentes modalidades antes de combiná-las, o Chameleon integra texto, imagens e outras entradas desde o início. Esse espaço de tokens unificados permite que o Chameleon receba e gere sequências intercaladas de textos e imagens sem problemas. Além disso, o Chameleon cria um vocabulário misto que inclui tokens de texto, códigos e imagens. Ele codifica imagens em tokens discretos semelhantes a palavras em um modelo de linguagem. Isso permite que o modelo aplique a mesma arquitetura de transformer em sequências contendo tokens de imagem e texto. Como consequência, ele tem uma capacidade aumentada de executar tarefas que exigem uma compreensão simultânea de várias modalidades.

chameleon

Esquema de como o Chameleon integra e gera diferentes modalidades (fonte).

Treinamento

Os modelos Chameleon foram treinados com um conjunto de dados de alta qualidade de 4,4 trilhões de tokens. O conjunto de treinamento incluiu textos, pares de imagem e texto e sequências intercaladas.

Desempenho

Os novos modelos passaram por uma avaliação abrangente em diversas tarefas. Elas incluíram resposta a perguntas visuais, legendagem de imagens, geração de textos e imagens e geração modal mista. Segundo os autores do modelo, o Chameleon demonstra desempenho de última geração em tarefas de legendagem de imagens. Ele supera o Llama-2 em tarefas de texto. Seu desempenho multimodal é compatível com modelos como Mixtral 8x7B e Gemini-Pro.

Imagem com IA Generativa – Dia 102

IA generativa img102

Arte com IA generativa: imagem do dia

Todos os dias, postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial