Search
Close this search box.
Novo Meta Spirit LM: multimodal para texto e fala
Meta Spirit LM

Posts Relacionados:

Meta Spirit LM é o novo modelo multimodal da Meta. Ele combina perfeitamente texto e fala, superando as limitações dos pipelines tradicionais.

Receba nossa newsletter

Meta Spirit LM: modelo multimodal

Grandes modelos de linguagem (LLMs) são frequentemente usados para criar pipelines de conversão de texto em fala. Inicialmente, a fala é transcrita por reconhecimento automático de fala (ASR). Em seguida, sintetizada por um LLM para gerar texto. O texto é então convertido em fala usando conversão de texto em fala (TTS). No entanto, esse processo compromete os aspectos expressivos do discurso que está sendo compreendido e gerado. Em um esforço para resolver essa limitação, a meta desenvolveu o Meta Spirit LM. Ele consiste em um modelo de linguagem multimodal de código aberto que mistura livremente texto e fala.

modelo multimodal para integrar fala e texto

O Meta Spirit LM combina perfeitamente entradas/saídas de texto e fala, superando as limitações dos pipelines tradicionais de conversão de fala em texto. O modelo também tem suporte aprimorado para a geração de voz de IA, preservando a expressividade no processamento da fala. Como consequência, o Spirit LM pode produzir uma fala com som mais natural e preserva elementos expressivos, como tom e emoção.

O modelo deve ser usado para facilitar interações entre humanos e sistemas de IA envolvendo textos e falas. Ao combinar recursos de fala e texto em um único modelo, o novo LLM representa um avanço na IA multimodal que pode levar a gerações de voz de IA mais expressivas e naturais.

Meta Spirit LM paper

A arquitetura do modelo. Para uma descrição completa, consulte o artigo oficial aqui.

Diferentes modelos

Existem duas versões do novo LLM. Uma delas se chama Spirit LM Base. Ele usa tokens fonéticos para modelar a fala. O outro modelo, Spirit LM Expressive, utiliza tokens de tom e estilo para capturar informações de tom emocional (por exemplo, excitação, raiva, surpresa) e gerar falas refletindo esse tom.

Usos e capacidades

O Spirit LM pode realizar várias tarefas relacionadas com a fala. Entre elas, o modelo realiza reconhecimento automático de fala, conversão de texto em fala, classificação de fala e geração de fala com som mais natural.

Disponibilidade

A Meta lançou o Spirit LM como um modelo de código aberto para pesquisadores e desenvolvedores usarem e desenvolverem. O código e os pesos do modelo podem ser baixados diretamente do GitHub e no site da empresa, respectivamente.

Imagem com IA Generativa – Dia 274

IA generativa img 274

Arte com IA generativa: imagem do dia

Todos os dias, postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial