SynthID em código aberto
Em um movimento significativo para a área de inteligência artificial (IA), a empresa Google DeepMind abriu o código de sua tecnologia de marca d’água SynthID. Como reportamos anteriormente, SynthID é uma ferramenta para identificar textos, vídeos, imagens e arquivos de áudio gerados por IA. Agora ela está acessível a todos os desenvolvedores de IA generativa. A introdução do SynthID marca um passo crucial no combate ao uso indevido de grandes modelos de linguagem (LLMs) e outras tecnologias de IA.
Embora SynthID consiga marcar vários tipos de arquivos, a versão lançada em código aberto identifica apenas textos gerados por LLMs. Ela se chama SynthID Text.
Marca d'água para conteúdos gerados por IA
SynthID funciona adicionando uma marca d’água invisível em imagens, arquivos de áudio, vídeo e texto à medida que eles são gerados. A versão SynthID Text altera os conteúdos textuais gerados por LLMs de uma forma que seja detectável pelo software, mas não por humanos. Isso é obtido ajustando as pontuações de probabilidade de cada token previsto durante o processo de geração. Segundo o Google Deep Mind, a marca d’água não compromete qualidade, precisão, criatividade ou velocidade dos textos gerados.
O sistema SynthID já está integrado ao chatbot Gemini e também a outras ferramentas como Imagen 3. Ele consegue marcar textos tão curtos quanto três frases. SynthID também funciona em textos cortados, parafraseados ou modificados. No entanto, ele tem dificuldades com conteúdos reescritos ou traduzidos. Os detalhes técnicos sobre a implementação da ferramenta foram publicados em um artigo na revista Nature.
O que significa a abertura do código de SynthID?
Segundo informações do Google DeepMind, a abertura do código de SynthID possibilita que desenvolvedores de IA generativa usem essa tecnologia para detectar saídas de textos que vieram de seus próprios LLMs. A ideia da empresa é facilitar a construção de modelos de IA com responsabilidade. A abertura do código do método de marca d’água também deve permitir que a comunidade de IA teste esses detectores e avalie sua robustez.
Onde obter a ferramenta?
Uma implementação de nível de produção do SynthID está disponível na plataforma Hugging Face. Uma implementação de referência também está disponível no GitHub. Segundo o Google, esta versão pode ser útil para mantenedores e colaboradores de código aberto que desejam trazer essa técnica para outros frameworks.
Alguns detalhes de uso da versão de SynthID liberada
SynthID Text é um processador de logits aplicado ao pipeline de geração de um LLM. Ele aumenta os logits do modelo usando uma função g pseudoaleatória. Essa função codifica informações de marca d’água equilibrando a qualidade da geração com a detectabilidade da marca d’água. As marcas d’água são configuradas com dois parâmetros principais: chaves (para computação de vocabulário) e ngram_len (robustez e detectabilidade do equilíbrio).
Nenhum treinamento adicional é necessário para gerar texto com uma marca d’água de texto SynthID.
A detecção de marca d’água é probabilística. Um detector bayesiano é fornecido na plataforma Hugging Face Transformers e no GitHub. Esse detector pode gerar três estados de detecção possíveis: com marca d’água, sem marca d’água ou incerto.
Para obter mais detalhes, consulte o artigo da Nature. Ele contém a descrição técnica completa do algoritmo e análises de como diferentes valores de configuração afetam seu desempenho. A Hugging Face também publicou um texto explicando como usar a ferramenta com transformers.
Conclusão
Em conclusão, a tecnologia de marca d’água de texto SynthID de código aberto do Google é um passo significativo para o desenvolvimento responsável de IA. À medida que o uso da IA continua a crescer, também aumenta a necessidade de ferramentas para garantir sua aplicação responsável e ética.