SEO e criação de conteúdo com Bag-of-Words

Posts Relacionados:

Aprenda a criar nuvens de palavras com Python

Chatbot super inteligente com LLM e Streamlit

Análise de sentimentos com LLM

08.02.24

Você já pensou se é possível usar o Python para dominar temas como SEO e criação de conteúdo? Bag-of-Words é uma técnica aparentemente simples, mas surpreendentemente poderosa de processamento de linguagem natural. E ela é ideal para análises de SEO e criação de conteúdo.

Receba nossa newsletter

Python para SEO e criação de conteúdo?

Você já se perguntou o que faz certos sites subirem no ranking dos mecanismos de busca? A resposta pode estar em uma técnica aparentemente simples, mas surpreendentemente poderosa de processamento de linguagem natural: Bag-of-Words (BoW).

BoW pertence ao grupo de algoritmos que navegam bem pelos labirintos da linguagem humana. Com o auxílio de BoW, é possível entender o que está por trás de conteúdos de sucesso e conhecer os desejos do público. Portanto, ele é uma técnica particularmente adequada para navegar no mundo de termos como SEO e criação de conteúdo. Ou seja, entre outras aplicações, BoW é uma ferramenta apropriada para a otimização de conteúdos de websites e mídias sociais. Mas o que é exatamente “Bag-of-Words”?

Bag-of-Words

Consideremos o mundo digital como um grande baú transbordando de palavras, cada uma representando uma pequena peça do quebra-cabeça. Ao analisar essas palavras e suas frequências, BoW auxilia na identificação do significado e da intenção por trás de qualquer texto. Essa capacidade do BoW o torna ideal para análises para SEO, criação de conteúdo, marketing digital e o que mais sua mente conseguir imaginar. Mas essas aplicações são recentes.

Tradicionalmente, o BoW é mais conhecido como uma técnica simples para transformar palavras em vetores. Essas transformações são essenciais para que textos possam ser usados em algoritmos de machine learning e essa é uma aplicação popular do BoW. Mas a ascensão da inteligência artificial e do processamento de linguagem natural deram nova vida ao BoW. Atualmente, além de seu uso tradicional em machine learning, ele se tornou uma ferramenta potente de análise em si. Seu uso para auxiliar em análises para SEO e criação de conteúdo tem se popularizado. E essas aplicações são facilmente implementadas com Python.

O Algoritmo Bag-of-Words

O algoritmo BoW (saco de palavras) é uma técnica de processamento de linguagem natural que extrai recursos numericamente de forma simples e flexível. BoW realiza a extração de recursos convertendo dados textuais em vetores.

Na prática, o algoritmo BoW cria um vocabulário. Esse vocabulário é, essencialmente, uma lista de todas as palavras únicas encontradas no corpus textual em análise. Em seguida, o BoW representa cada elemento do corpus como um vetor de comprimento fixo. Cada elemento no vetor corresponde a uma palavra ou token no vocabulário. Esses vetores representam o “saco” de palavras no documento. Ao converter textos em vetores numéricos, o BoW consegue analisar facilmente quantidades massivas de dados. Porém, na sua implementação tradicional, a ordem das palavras num documento é completamente ignorada. O BoW só se preocupa com quantas vezes cada palavra aparece.

BoW com Python e scikit-learn

Uma forma direta e simples de aplicar o BoW num corpus é usando a funcionalidade CountVectorizer da biblioteca scikit-learn. A classe CountVectorizer implementa automaticamente a tokenização e a contagem de ocorrências de palavras. A configuração padrão tokeniza strings extraindo palavras com pelo menos 2 letras. Mas a classe CountVectorizer pode ser facilmente customizada.

Na implementação do BoW da biblioetca scikit-learn, cada frequência de ocorrência de um token individual é tratada como um recurso. O vetor de todas as frequências simbólicas de um determinado documento é considerado uma amostra multivariada. Um corpus de documentos pode ser representado por uma matriz com uma linha por documento e uma coluna por token que ocorre no corpus. Veja um exemplo de implementação abaixo.

				
					from sklearn.feature_extraction.text import CountVectorizer

# Amostras de textos (documentos)
textos = ['Minha terra tem palmeiras',
            'Onde canta o sabiá.',
            'As aves que aqui gorjeiam',
            'Não gorjeiam como lá.',
            'Nosso céu tem mais estrelas,',
            'Nossas várzeas têm mais flores.',
            'Nossos bosques têm mais vida,',
            'Nossa vida mais amores.' ]

# Cria modelo BoW
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(textos) # aplica modelo nos textos

print(f"Nomes dos recursos: {vectorizer.get_feature_names_out()}") # Imprime o nome dos recursos
print(f"Matriz dos documentos: {X.toarray()}") # Imprime a matriz com os vetores criados

				
					Nomes dos recursos: ['amores' 'aqui' 'as' 'aves' 'bosques' 'canta' 'como' 'céu' 'estrelas'
 'flores' 'gorjeiam' 'lá' 'mais' 'minha' 'nossa' 'nossas' 'nosso' 'nossos'
 'não' 'onde' 'palmeiras' 'que' 'sabiá' 'tem' 'terra' 'têm' 'vida'
 'várzeas']
 
Matriz dos documentos: [[0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 1 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0]
 [0 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1]
 [0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0]]

BoW com N-Grams

Uma das grandes desvantagens do BoW é não considerar relações entre palavras e, portanto, não entender contexto. Mas, para tarefas como análise de sentimentos, modelagem de tópicos, análises para SEO e para geração de conteúdo, entender a ordem e o contexto das palavras é crucial. Felizmente, essa limitação do BoW pode ser contornada com o uso de n-grams.

N-grams são sequências de palavras contíguas de n-itens em um texto ou frase. Eles são cruciais para capturar informações contextuais e podem melhorar consideravelmente a representação vetorial de textos, fornecendo um contexto mais rico. Enquanto as implementações tradicionais do BoW tratam as palavras de forma independente, sua implementação com n-grams computa sequências de palavras. Isso permite que o modelo capture relações significativas entre palavras.

A mesma classe CountVectorizer mencionada anteriormente pode ser usada em implementações do BoW com n-grams. Veja um exemplo abaixo.

				
					from sklearn.feature_extraction.text import CountVectorizer

# Amostras de textos (documentos)
textos = ['Sou um guardador de rebanhos.',
'O rebanho é os meus pensamentos',
'E os meus pensamentos são todos sensações.',
'Penso com os olhos e com os ouvidos',
'E com as mãos e os pés',
'E com o nariz e a boca.',
'Pensar uma flor é vê-la e cheirá-la',
'E comer um fruto é saber-lhe o sentido.']

# Cria modelo BoW
vectorizer = CountVectorizer(ngram_range=(1, 3)) # BoW com n-grams variando de 1 a 3 palavras
X = vectorizer.fit_transform(textos) # aplica modelo nos textos

print(f"Nomes dos recursos: {vectorizer.get_feature_names_out()}") # Imprime o nome dos recursos

				
					Nomes dos recursos: ['as' 'as mãos' 'as mãos os' 'boca' 'cheirá' 'cheirá la' 'com' 'com as'
 'com as mãos' 'com nariz' 'com nariz boca' 'com os' 'com os olhos'
 'com os ouvidos' 'comer' 'comer um' 'comer um fruto' 'de' 'de rebanhos'
 'flor' 'flor vê' 'flor vê la' 'fruto' 'fruto saber' 'fruto saber lhe'
 'guardador' 'guardador de' 'guardador de rebanhos' 'la' 'la cheirá'
 'la cheirá la' 'lhe' 'lhe sentido' 'meus' 'meus pensamentos'
 'meus pensamentos são' 'mãos' 'mãos os' 'mãos os pés' 'nariz'
 'nariz boca' 'olhos' 'olhos com' 'olhos com os' 'os' 'os meus'
 'os meus pensamentos' 'os olhos' 'os olhos com' 'os ouvidos' 'os pés'
 'ouvidos' 'pensamentos' 'pensamentos são' 'pensamentos são todos'
 'pensar' 'pensar uma' 'pensar uma flor' 'penso' 'penso com'
 'penso com os' 'pés' 'rebanho' 'rebanho os' 'rebanho os meus' 'rebanhos'
 'saber' 'saber lhe' 'saber lhe sentido' 'sensações' 'sentido' 'sou'
 'sou um' 'sou um guardador' 'são' 'são todos' 'são todos sensações'
 'todos' 'todos sensações' 'um' 'um fruto' 'um fruto saber' 'um guardador'
 'um guardador de' 'uma' 'uma flor' 'uma flor vê' 'vê' 'vê la'
 'vê la cheirá']

Embora a combinação de BoW com n-grams seja vantajosa para capturar relações contextuais, ela também tem limitações. Incluir n-grams aumenta significativamente o tamanho do vocabulário, pois é preciso considerar todas as combinações possíveis de palavras. Isso pode causar um desempenho potencialmente pior se os dados forem limitados.

BoW, SEO e Criação de Conteúdos

Mas como BoW é usado para análises de SEO e de geração de conteúdo?

O BoW captura a presença e a frequência das palavras. Para análises de SEO e análises para geração de conteúdo, o BoW auxilia na identificação de clusters de tópicos. Ele pode ser utilizado para analisar conteúdo de concorrentes, discussões em fóruns, etc. Ele também é adequado para descobrir palavras-chave e frases buscadas com frequência. Isso o torna uma ferramenta de identificação de tópicos e subtópicos relevantes. Portanto, o BoW pode contribuir para segmentar estratégias de criação de conteúdo.

Ao analisar palavras-chave usadas em diferentes contextos, o BoW permite a obtenção de insights sobre a intenção de usuários por trás das buscas online. Isso auxilia na criação de conteúdo alinhada com metas de buscas e melhora as taxas de cliques. O BoW também pode ser aplicado para identificar palavras-chave menos competitivas e de cauda longa relacionadas a um tópico principal.

Para concuir

O BoW é um algoritmo simples, flexível e poderoso. Com sua capacidade de navegar no mundo da linguagem humana, ele fornece insights valiosos e tem inúmeras aplicações. Entre algumas de suas aplicações estão análises para SEO e para geração de conteúdo. Para conhecer melhor os detalhes técnicos sobre sua implementação, visite a documentação oficial da biblioteca scikit-learn. Materiais online sobre processamento de linguagem natural também são fontes de informações importantes sobre essa técnica.