O recente aumento exponencial no uso de inteligência artificial (IA) generativa tem causado mudanças inegáveis em nossas vidas. No entanto, poucas pessoas sabem o que inteligência artificial generativa realmente é.
Sem esse conhecimento, grande parte da população não é capaz de entender qual é o impacto potencial dessa tecnologia na nossa sociedade. Portanto, o objetivo deste post é explicar o que é esse ramo e quais são suas principais técnicas e princípios.
O que é inteligência artificial generativa?
Inteligência artificial generativa é um tipo de IA capaz de gerar conteúdo sintético na forma de texto, imagens, áudios, códigos ou vídeos.
Seus algoritmos são projetados para identificar e aprender padrões para criar novas formas de conteúdos. O objetivo principal da área é gerar resultados completamente inéditos e equivalentes aos reais.
Imagem gerada pelo Bing.
Como isso é feito?
Como explicamos anteriormente (aqui), técnicas de machine learning, uma das principais subáreas da inteligência artificial, aprendem padrões através de suas exposições a dados. Geralmente, a aprendizagem desses padrões é utilizada pelos algoritmos para realizar tarefas de classificação e regressão. No entanto, essa finalidade é diferente em técnicas generativas. Nelas, o conhecimento que os algoritmos adquirem na fase de treinamento (aprendizagem) é usado, posteriormente, para gerar resultados novos e inéditos.
O avanço recente da área
Tecnologias generativas não são novas. Elas existem desde a década de 60. Chatbots são um exemplo de inteligência artificial generativa.
No entanto, parte da popularização dessas tecnologias ocorreu apenas recentemente com a publicação e desenvolvimento de novas técnicas. Por exemplo, em 2014 foi feita a primeira descrição de GAN (Generative Adversial Network). GAN é uma técnica que possibilita que redes neurais sejam usadas para a criação de imagens inéditas.
Outro fator que contribuiu significativamente para o avanço da área foi o desenvolvimento de modelos transformers a partir de 2017. Essa tecnologia é a responsável pelos resultados surpreendentes verificados, por exemplo, com o ChatGPT e BARD.
Imagem gerada pelo Bing.
Tipos principais de modelos de inteligência artificial generativa
Generative Adversarial Networks (GANs)
GANs são utilizadas para várias aplicações. Tecnicamente, elas consistem em duas redes neurais que atuam uma contra a outra. Uma é chamada de discriminador e a outra é o gerador.
A rede discriminadora é treinada para discriminar entre amostras criadas artificialmente e dados originais. Já a rede geradora aprende como gerar dados que imitam amostras reais de forma precisa.
As duas redes se envolvem em um processo de treinamento competitivo e iterativo. À medida que o treinamento avança, o gerador aprende a criar amostras mais realistas e o discriminador melhora sua capacidade de distinguir entre dados reais e falsos. Ou seja, o padrão de treinamento das GANs leva a uma melhoria no desempenho das duas redes. Consequentemente, as GANs são capazes de gerar dados complexos e de alta qualidade.
Variation Encoders (VAEs)
VAEs são modelos generativos projetados para capturar a distribuição de probabilidade subjacente de um determinado conjunto de dados e gerar novas amostras. Eles utilizam uma arquitetura com estrutura codificador-decodificador. O codificador transforma a estrutura e as características dos dados de entrada em uma forma latente e contínua. Já o decodificador atua para reconstruir os dados originais com base nesta representação latente.
Algoritmos VAEs são desenhados para minimizar as diferenças entre os dados originais e os reconstruídos. Como o espaço latente dos VAEs é contínuo, o decodificador pode gerar novos pontos de dados que interpolam perfeitamente entre os pontos de dados de treinamento. Com isso, eles geram novas amostras seguindo a distribuição dos dados reais.
As aplicações desses algoritmos são muito diversificadas.
Imagem gerada pelo Bing.
Modelos Transformers
Modelos baseados em transformers são muito populares para análises de dados sequenciais como linguagem falada e escrita. Como consequência, eles são frequentemente utilizados para aplicações de processamento de linguagem natural.
O elemento central desses modelos é um mecanismo de atenção. Ele permite que um modelo capture dependências e relacionamentos entre palavras ou tokens na sequência de entrada. O modelo também avalia a importância de diferentes palavras com base nas suas relevâncias cruzadas, o que possibilita uma compreensão abrangente de contexto.
Estruturalmente, modelos baseados em transformers frequentemente possuem um codificador e um decodificador. O codificador processa a sequência de entrada e a codifica em representações que capturam as informações contextuais. Por sua vez, o decodificador, gera uma sequência de saída atendendo aos termos do codificador.
Alguns representantes famosos da inteligência artificial generativa
Dall-E: é um modelo desenvolvido pela Open AI para criação de imagens inéditas a partir de descrições textuais.
ChatGPT: o ChatGPT é o modelo conversacional da Open AI. Ele é capaz de realizar conversas dinâmicas e naturais, fornecendo respostas às dúvidas dos usuários e criando textos sobre vários tópicos.
BARD: é um modelo de linguagem desenvolvido pelo Google e lançado às pressas em resposta à integração do GPT pela Microsoft na ferramenta de busca Bing. A tecnologia do BARD visa aprimorar modelos de linguagem através da inclusão de técnicas de aprendizagem por reforço.
Bing: o Bing é a ferramenta de busca da Microsoft. Ele foi integrado recentemente com tecnologias GPT (Generative Pre-Training), embora a opção de busca tradicional permaneça. Com essa integração, usuários podem acessar o Bing e fazer perguntas num formato equivalente às interações com o ChatGPT.
Imagem gerada pelo Bing.
As implicações éticas
A inteligência artificial generativa tem evidentes implicações éticas. Uma das principais se refere ao uso desta tecnologia para gerar conteúdos sem a devida atribuição de créditos ou consentimento.
Como apresentamos acima, modelos de inteligência artificial generativa são treinados utilizando textos, imagens, músicas pré-existentes. Esses materiais foram produzidos por pessoas que frequentemente não consentiram ou foram informadas sobre seu uso para treinamentos de redes neurais.
Esse tópico tem imensas implicações. Entre elas está a necessidade óbvia de uma revisão sobre o conceito de autoria e propriedade intelectual para refletir melhor o momento que vivemos.
Outro risco evidente da IA generativa é a substituição de inúmeros profissionais por algoritmos. Esse tema, embora frequentemente mencionado, não tem sido discutido com a seriedade necessária.
Outra consequência importante se refere à utilização de aplicativos de inteligência artificial generativa para criar conteúdos para manipulações da opinião pública.
Embora existam empresas que se dizem especialistas em reconhecer conteúdos gerados por IA, não há consenso de que isso é, de fato, possível. Consequentemente, a forma mais eficaz de minimizar as consequências que essas aplicações podem ter é informar a população sobre o que elas são.
Conclusões
Inteligência artificial generativa é uma tecnologia revolucionária. Ela envolve técnicas novas de machine learning que possibilitam que modelos aprendam com dados e usem os padrões aprendidos para criar novos conteúdos. Essa capacidade é muito poderosa e pode ser uma ótima adição às nossas vidas. Mas ela também tem fortes implicações éticas com dimensões ainda nebulosas. A melhor proteção contra os malefícios que a área pode causar é o conhecimento sobre o que ela é e quais são suas capacidades.