Meta Spirit LM: modelo multimodal
Grandes modelos de linguagem (LLMs) são frequentemente usados para criar pipelines de conversão de texto em fala. Inicialmente, a fala é transcrita por reconhecimento automático de fala (ASR). Em seguida, sintetizada por um LLM para gerar texto. O texto é então convertido em fala usando conversão de texto em fala (TTS). No entanto, esse processo compromete os aspectos expressivos do discurso que está sendo compreendido e gerado. Em um esforço para resolver essa limitação, a meta desenvolveu o Meta Spirit LM. Ele consiste em um modelo de linguagem multimodal de código aberto que mistura livremente texto e fala.
modelo multimodal para integrar fala e texto
O Meta Spirit LM combina perfeitamente entradas/saídas de texto e fala, superando as limitações dos pipelines tradicionais de conversão de fala em texto. O modelo também tem suporte aprimorado para a geração de voz de IA, preservando a expressividade no processamento da fala. Como consequência, o Spirit LM pode produzir uma fala com som mais natural e preserva elementos expressivos, como tom e emoção.
O modelo deve ser usado para facilitar interações entre humanos e sistemas de IA envolvendo textos e falas. Ao combinar recursos de fala e texto em um único modelo, o novo LLM representa um avanço na IA multimodal que pode levar a gerações de voz de IA mais expressivas e naturais.
A arquitetura do modelo. Para uma descrição completa, consulte o artigo oficial aqui.
Diferentes modelos
Existem duas versões do novo LLM. Uma delas se chama Spirit LM Base. Ele usa tokens fonéticos para modelar a fala. O outro modelo, Spirit LM Expressive, utiliza tokens de tom e estilo para capturar informações de tom emocional (por exemplo, excitação, raiva, surpresa) e gerar falas refletindo esse tom.
Usos e capacidades
O Spirit LM pode realizar várias tarefas relacionadas com a fala. Entre elas, o modelo realiza reconhecimento automático de fala, conversão de texto em fala, classificação de fala e geração de fala com som mais natural.