Prompts e LLMs
Com a popularização dos modelos grandes de linguagem (Large Language Models, LLMs), cursos de prompts se tornaram uma necessidade.
Prompts são instruções específicas para LLMs. Eles orientam os LLMs (como GPT-3, Bard) na geração de resultados desejados. Solicitações bem feitas aos LLMs são fundamentais para criar aplicativos sofisticados e automatizar tarefas que antes eram difíceis ou impossíveis usando apenas códigos tradicionais. Porém, a maioria das pessoas ainda não sabe como escrever bons prompts.
Um prompt forte inclui um objetivo claro, contexto relevante, restrições (formato de entrada), formato de saída desejado (por exemplo, JSON, código) e exemplos, se possível. Ele também pode incluir material para consulta e, para modelos multimodais, imagens e vídeos.
Existem vários cursos de prompts disponíveis através do Coursera, Google e diversas outras plataformas. O foco do post de hoje é sobre um novo curso de prompts disponível na plataforma DeeepLearning.AI. Ele ensina como interagir com os LLMs multimodais da família Gemini.
Curso de Prompts para modelos multimodais
Modelos multimodais como o Gemini unificam modalidades de dados tradicionalmente isoladas. O Gemini consegue combinar informações na forma de textos, imagens e vídeos. Essa capacidade possibilita desenvolver aplicativos altamente inteligentes.
O novo curso ensina como desenvolver prompts para usar todo o poder da atenção intermodal do Gemini. Seu foco é em como fundir informações de textos, imagens e vídeo para tarefas complexas. O curso também fornece as bases para usar outros recursos do Gemini. Entre eles estão o uso de conhecimento externo e dados em tempo real por meio de chamada de função e integração de API.
Temas abordados
O curso de prompts para LLMs multimodais aborda vários tópicos, incluindo:
Introdução à família de modelos Gemini (Gemini Nano, Pro, Flash e Ultra): entenda como selecionar o modelo ideal com base em considerações de capacidade, latência e custo.
Prompt multimodal e controle de parâmetros: descubra técnicas avançadas para estruturar prompts eficazes de texto-imagem-vídeo para obter o comportamento desejado do modelo. Aprenda também a ajustar os principais parâmetros dos LLMs, como temperatura, para controlar a criatividade dos modelos.
Práticas recomendadas para solicitação multimodal: se familiarize com as práticas recomendadas sobre atribuição de função, decomposição de tarefas e formatação.
Desenvolvimento de casos de uso com imagens: aprenda como criar aplicativos multimodais envolventes, como assistentes de design de interiores.
Desenvolvimento de casos de uso com vídeos: saiba como implementar pesquisa semântica do tipo “agulha no palheiro” com vídeo e alimentada pela janela de contexto enorme do Gemini.
Integração de dados em tempo real com chamada de função: aprenda a estender o Gemini com conhecimento externo e dados em tempo real por meio de chamada de função e integração de API.
O curso de prompts multimodais com Gemini é adequado para iniciantes. Ele é ministrado em inglês e está disponível nesse link.