Novo Meta Spirit LM: multimodal para texto e fala

Posts Relacionados:

A Revolução dos Modelos Pequenos de Linguagem em IA

Qwen2 do Alibaba: a revolução em IA de última geração

A ascensão e queda do Falcon 180B

19.10.24

Meta Spirit LM é o novo modelo multimodal da Meta. Ele combina perfeitamente texto e fala, superando as limitações dos pipelines tradicionais.

Receba nossa newsletter

Meta Spirit LM: modelo multimodal

Grandes modelos de linguagem (LLMs) são frequentemente usados para criar pipelines de conversão de texto em fala. Inicialmente, a fala é transcrita por reconhecimento automático de fala (ASR). Em seguida, sintetizada por um LLM para gerar texto. O texto é então convertido em fala usando conversão de texto em fala (TTS). No entanto, esse processo compromete os aspectos expressivos do discurso que está sendo compreendido e gerado. Em um esforço para resolver essa limitação, a meta desenvolveu o Meta Spirit LM. Ele consiste em um modelo de linguagem multimodal de código aberto que mistura livremente texto e fala.

modelo multimodal para integrar fala e texto

O Meta Spirit LM combina perfeitamente entradas/saídas de texto e fala, superando as limitações dos pipelines tradicionais de conversão de fala em texto. O modelo também tem suporte aprimorado para a geração de voz de IA, preservando a expressividade no processamento da fala. Como consequência, o Spirit LM pode produzir uma fala com som mais natural e preserva elementos expressivos, como tom e emoção.

O modelo deve ser usado para facilitar interações entre humanos e sistemas de IA envolvendo textos e falas. Ao combinar recursos de fala e texto em um único modelo, o novo LLM representa um avanço na IA multimodal que pode levar a gerações de voz de IA mais expressivas e naturais.

A arquitetura do modelo. Para uma descrição completa, consulte o artigo oficial aqui.

Diferentes modelos

Existem duas versões do novo LLM. Uma delas se chama Spirit LM Base. Ele usa tokens fonéticos para modelar a fala. O outro modelo, Spirit LM Expressive, utiliza tokens de tom e estilo para capturar informações de tom emocional (por exemplo, excitação, raiva, surpresa) e gerar falas refletindo esse tom.

Usos e capacidades

O Spirit LM pode realizar várias tarefas relacionadas com a fala. Entre elas, o modelo realiza reconhecimento automático de fala, conversão de texto em fala, classificação de fala e geração de fala com som mais natural.

Disponibilidade

A Meta lançou o Spirit LM como um modelo de código aberto para pesquisadores e desenvolvedores usarem e desenvolverem. O código e os pesos do modelo podem ser baixados diretamente do GitHub e no site da empresa, respectivamente.