Fatores de classificação do algoritmo do Twitter: um guia definitivo

Publicados: 2022-07-01

As patentes do Twitter e outras publicações revelam aspectos prováveis ​​de como os tweets são promovidos nos feeds da linha do tempo dos usuários.

Alguns dos fatores de classificação da linha do tempo do Twitter são muito surpreendentes, e ajustar sua abordagem ao Tweeting pode ajudá-lo a obter maior visibilidade de seus Tweets.

Com base em várias patentes importantes e outras fontes, delineei vários fatores de classificação prováveis ​​para o algoritmo do Twitter aqui.

A linha do tempo do Twitter

O Twitter começou a usar uma linha do tempo baseada em algoritmos em 2016, quando mudou do que era puramente um feed cronológico de Tweets de todas as contas seguidas. A mudança classificou as linhas do tempo dos usuários para permitir que eles vejam “os melhores Tweets primeiro”. Desde então, o Twitter experimentou variações disso até o presente.

Um algoritmo baseado em feed para mídias sociais não é incomum. O Facebook e outras plataformas de mídia social fizeram o mesmo.

As razões para essa mudança para uma mistura algorítmica de Tweets de linha do tempo são bastante claras. Uma linha do tempo cronológica puramente pessoal composta apenas pelas contas que você seguiu é muito isolada e, portanto, limitada - embora a introdução de postagens de contas além das conexões diretas tenha o potencial de aumentar o tempo gasto na plataforma, o que, por sua vez, aumenta a aderência geral, o que, por sua vez, aumenta o valor do serviço para anunciantes e parceiros de dados.

Várias classificações de interesse de usuários e tópicos de interesse associados a suas contas e tweets possibilitam ainda mais potencial para segmentação de anúncios com base na demografia do usuário e nos tópicos de conteúdo.

Os usuários avançados do Twitter podem ter desenvolvido algumas intuições sobre vários fatores do Tweet que podem resultar em maior visibilidade dentro do algoritmo.

Um lembrete sobre patentes

Corporações registram patentes o tempo todo para invenções que elas não usam em serviço ao vivo. Quando trabalhei na Verizon, escrevi pessoalmente vários rascunhos de patentes para várias invenções que meus colegas e eu desenvolvemos no decorrer de nosso trabalho – incluindo coisas que acabamos não usando na produção.

Assim, o fato de o Twitter ter patentes que mencionam ideias de como as coisas podem funcionar não garante de forma alguma que é assim que as coisas funcionam .

Além disso, as patentes normalmente contêm várias modalidades, que são essencialmente várias maneiras pelas quais uma invenção pode ser implementada – as patentes tentam descrever os principais elementos de uma invenção da maneira mais ampla possível para reivindicar qualquer uso possível que possa ser atribuído a ela.

Finalmente, assim como com a famosa patente do algoritmo PageRank que foi a base do mecanismo de busca do Google, nos casos em que o Twitter usou uma incorporação de uma de suas patentes, é altamente provável que eles tenham alterado e refinado as invenções simples e amplas descritas, E continuará a fazê-lo.

Mesmo apesar de toda essa imprecisão e incerteza típicas, encontrei vários conceitos muito interessantes nas descrições das patentes do Twitter, muitos dos quais provavelmente serão incorporados em seu sistema.

Twitter e aprendizado profundo

Uma ressalva adicional antes de prosseguir envolve como o algoritmo da linha do tempo do Twitter incorporou Deep Learning em seu DNA, juntamente com vários níveis de supervisão humana, tornando-o uma fera que se desenvolve frequentemente, se não constantemente.

Isso significa que grandes mudanças e pequenas mudanças incrementais podem e ocorrerão na forma como ele realiza a classificação de conteúdo. Além disso, essa abordagem de aprendizado de máquina pode levar a condições em que os próprios engenheiros humanos do Twitter podem não saber exatamente por que algum conteúdo é exibido ou supera outro conteúdo devido à abstração dos modelos de classificação produzidos, semelhante ao que descrevi ao escrever sobre os modelos produzidos pelo Google classificação de qualidade por meio de aprendizado de máquina.

Apesar da complexidade e sofisticação de como o algoritmo do Twitter está funcionando, entender os fatores que provavelmente entram na caixa preta ainda pode revelar o que influencia os rankings.

A linha do tempo original do Twitter era simplesmente composta por todos os Tweets das contas que se seguiu desde a última visita, que foram coletados e exibidos em ordem cronológica inversa com os Tweets mais recentes mostrados primeiro, e cada Tweet anterior mostrado um após o outro enquanto um rolava para baixo.

O algoritmo atual ainda é composto em grande parte pela mesma listagem cronológica reversa de Tweets, mas o Twitter realiza uma reclassificação para tentar exibir os Tweets mais interessantes em primeiro lugar dos Tweets recentes.

Em segundo plano, os Tweets receberam uma pontuação de classificação por um modelo de relevância que prevê o quão interessante cada Tweet provavelmente será para você, e esse valor de pontuação determina a ordem de classificação.

Os Tweets com pontuações mais altas são exibidos primeiro na sua lista de linha do tempo, com o restante dos Tweets mais recentes exibidos mais abaixo. É notável que intercalados em sua linha do tempo agora também estão Tweets de contas que você não está seguindo, bem como alguns Tweets de anúncios.

Gráfico de conexão do Twitter

Em primeiro lugar, um dos aspectos mais influentes da linha do tempo do Twitter é como o Twitter agora exibe Tweets com base não apenas em suas conexões diretas neste momento, mas essencialmente no que é seu gráfico social exclusivo, ao qual o Twitter se refere em patentes como “ gráfico de conexão”.

O gráfico de conexão representa contas como nós e relacionamentos como linhas (“arestas”) conectando um ou mais nós. Um relacionamento pode se referir a associações entre contas do Twitter.

Por exemplo, seguir, assinar (como por meio do programa Super Follows do Twitter ou, potencialmente, pelo recurso de assinatura anunciado do Twitter para consultas de palavras-chave), curtir, marcar etc. – tudo isso cria relacionamentos.

Os relacionamentos no gráfico de conexão de uma pessoa podem ser unidirecionais (por exemplo, eu sigo você) ou bidirecionais (por exemplo, nós dois seguimos um ao outro). Se eu te seguir, mas você não me seguir, eu teria uma expectativa maior de ver seus Tweets e Retweets aparecendo na minha timeline, mas você não necessariamente esperaria ver os meus.

Simplesmente com base no gráfico de conexão, é provável que você veja Tweets e Retweets daqueles que você seguiu, bem como Tweets que suas conexões curtiram ou responderam.

O algoritmo do Twitter expandiu os Tweets que você pode ver além das contas com as quais você interagiu diretamente. Os Tweets que você pode ver em sua linha do tempo agora também incluem Tweets de outras pessoas que estão postando sobre tópicos que você seguiu, Tweets semelhantes em alguns aspectos aos Tweets que você curtiu anteriormente e Tweets baseados em tópicos que o algoritmo prevê que você possa gostar.

Mesmo entre esses tipos expandidos de Tweets que você pode obter, o sistema de classificação do algoritmo se aplica – você não está recebendo todos os Tweets que correspondem aos seus tópicos, curtidas e interesses previstos – você está recebendo uma lista selecionada por meio do algoritmo do Twitter.

Classificação de interesse

Dentro do DNA de várias patentes e algoritmos do Twitter para classificar Tweets está o conceito de “interesse”.

Isso provavelmente foi inspirado por uma patente concedida ao Yahoo em 2006 chamada “Classificação de interesse de objetos de mídia”, que descrevia os métodos de classificação usados ​​no algoritmo do Flickr (o serviço dominante de compartilhamento de fotos de mídia social que foi posteriormente eclipsado pelo Instagram e Pinterest).

Esse algoritmo anterior para o Flickr tem muitas semelhanças com as patentes contemporâneas do Twitter. Ele usou fatores semelhantes e até idênticos para computar o interesse. Estes incluíram:

  • Informações de localização.
  • Metadados de conteúdo.
  • Cronologia.
  • Padrões de acesso do usuário.
  • Sinais de interesse (como marcar, comentar, favoritar).

Pode-se facilmente descrever o algoritmo do Twitter como tendo o algoritmo de interesse do Flickr, expandindo alguns dos fatores envolvidos, computando-o por meio de um processo de aprendizado de máquina mais sofisticado, interpretando o conteúdo com base no processamento de linguagem natural (NLP) e incorporando uma série de variações adicionais para permitem a rapidez de apresentação em tempo quase real para um número gigantesco de usuários simultaneamente.

Classificação e spam do Twitter

Também é interessante focar alguns nos métodos usados ​​pelo Twitter para detectar spam, contas de usuário de spam e rebaixar ou suprimir Tweets de spam da visualização.

O policiamento para desinformação, outros conteúdos que violem políticas e assédio também é intenso, mas isso não necessariamente converge tanto com as avaliações de classificação.

Algumas das patentes de detecção de spam são interessantes porque vejo usuários frequentemente encalhando os processos de supressão de spam do Twitter de forma bastante involuntária, e há uma série de coisas que podem ser feitas que resultam em esforços para promover e interagir com o público do Twitter. O Twitter teve que criar processos agressivos de vigilância para policiar e remover spam, e até mesmo os usuários mais proeminentes podem entrar em conflito com esses processos de tempos em tempos.

Assim, uma compreensão dos fatores de spam do Twitter pode ser importante, pois eles podem fazer com que os Tweets de alguém obtenham deduções de interesse que de outra forma teriam, e essa perda nas pontuações de relevância pode reduzir a visibilidade e o poder de distribuição de seus Tweets.

Fatores de classificação do Twitter

Então, quais são os fatores mencionados nas patentes do Twitter para avaliar “interesse” e que influenciam como o Twitter classifica os Tweets para rankings?

Recência da postagem do Tweet

Com mais recente sendo geralmente muito mais preferido. Além de palavras-chave específicas e outros tipos de buscas, a maioria dos Tweets seria das últimas horas. Alguns Tweets “caso você tenha perdido” também podem ser incluídos, que parecem variar principalmente ao longo do último dia ou dois.

Imagens ou Vídeo

Em geral, em geral, o Google e outras plataformas indicaram que os usuários tendem a preferir mais imagens e mídia de vídeo, portanto, um Tweet contendo qualquer um deles pode obter uma pontuação mais alta.

O Twitter cita especificamente cartões de imagem e vídeo, que se referem a sites que implementaram cartões do Twitter, o que permite que o Twitter exiba facilmente trechos de visualização mais ricos quando os Tweets contêm links para páginas da Web com a marcação do cartão.

Tweets com links que mostram imagens e vídeos geralmente são mais atraentes para os usuários, mas pode haver uma vantagem adicional para Tweets com links para as páginas com a marcação do cartão para exibir o conteúdo do cartão

Interações com o Tweet

O Twitter cita Curtidas e Retweets, mas métricas adicionais relacionadas ao Tweet também se aplicariam aqui. As interações incluem:

  • Gostos
  • Retuítes
  • Cliques em links que podem estar no Tweet
  • Cliques para hashtags no Tweet
  • Cliques em contas do Twitter mencionadas no Tweet
  • Expansão de detalhes – cliques para ver detalhes sobre o Tweet, como ver quem gostou ou retweetou.
  • Novos seguidores – quantas pessoas passaram o mouse sobre o nome de usuário e clicaram para seguir a conta.
  • Visitas ao perfil – quantas pessoas clicaram no avatar ou nome de usuário para visitar o perfil do postador.
  • Compartilhamentos – quantas vezes o Tweet foi compartilhado por meio do botão de compartilhamento.
  • Respostas ao Tweet

Impressões

Embora a maioria das impressões venha da exibição do Tweet nas linhas do tempo, algumas impressões são derivadas quando os Tweets são compartilhados por meio da incorporação em páginas da web. É possível que esses números de impressões também afetem a pontuação de interesse do Tweet.

Probabilidade de interações

Uma patente do Twitter descreve o cálculo de uma pontuação para um Tweet representando a probabilidade de que os seguidores do Autor do Tweet no sistema de mensagens sociais interajam com a mensagem, sendo a pontuação baseada no desvio do nível de interação calculado entre o nível de interação observado dos Seguidores de o Autor e o nível de interação esperado dos Seguidores.

Duração do Tweet

Um tipo de classificação é o tamanho do texto contido no Tweet, que pode ser classificado como um valor numérico (por exemplo, 103 caracteres) ou pode ser designado como uma das poucas categorias (por exemplo, curto, médio ou longo). .

De acordo com os tópicos envolvidos com um Tweet, ele pode ser avaliado como mais ou menos interessante – para alguns tópicos, o curto pode ser mais benéfico e, para alguns outros, o comprimento médio ou longo pode tornar o Tweet mais interessante.

Interações com Autores Anteriores

As interações anteriores com o autor de um Tweet aumentarão a probabilidade (e a pontuação de classificação na linha do tempo) de ver outros Tweets desse mesmo autor.

Essas métricas de interação do gráfico social podem incluir pontuação pela origem do relacionamento.

Assim, um histórico anterior de responder, curtir ou retweetar os Tweets de um autor, mesmo que não siga essa conta, pode aumentar a probabilidade de ver seus últimos Tweets.

Há uma probabilidade de que as interações recentes de uma pessoa com um autor de Tweet também possam contribuir para isso, portanto, se você não tiver interagido com um de seus Tweets por um longo tempo, a visibilidade potencial de seus Tweets mais recentes poderá diminuir para você.

No contexto do algoritmo, “autor” e “conta” são usados ​​essencialmente para significar a mesma coisa, então os Tweets de uma conta corporativa são tratados da mesma forma que os Tweets de um indivíduo.

Classificação de credibilidade do autor

Essa pontuação pode ser calculada pelos relacionamentos e interações de um autor com outros usuários.

O exemplo dado na patente é que um autor seguido por várias contas de alto perfil ou prolíficos teria uma alta pontuação de credibilidade.

Embora um valor de classificação citado seja “baixo”, “médio” e “alto”, a patente também sugere uma escala de valores de classificação de 1 a 10, podendo incluir um fator qualitativo e/ou quantitativo.

Eu acho que um intervalo como 1 a 10 é muito mais provável. Parece provável que alguns dos valores de avaliação de spam possam ser usados ​​para subtrair de uma Classificação de Credibilidade do Autor. Mais informações sobre possíveis fatores de avaliação de spam na última parte deste artigo.

Relevância do autor

É possível que os autores avaliados como mais relevantes para um determinado tópico tenham um valor de Relevância do autor mais alto. Além disso, as menções a um Autor podem torná-los mais relevantes no contexto dos Tweets que os mencionam.

As patentes também falam sobre a associação de Autores a tópicos, portanto, é possível que Autores que tweetam envolvendo tópicos específicos com frequência, juntamente com boas taxas de engajamento, possam ser considerados de maior relevância quando seus Tweets envolvem esse tópico.

Métricas do autor

Os Tweets podem ser classificados com base nas propriedades do Autor. Essas métricas podem influenciar o interesse relativo das mensagens do Autor. Essas métricas de autor incluem:

  • Localização do Autor (como Cidade ou País)
  • Idade (com base na data de nascimento que pode ser fornecida nos detalhes da conta)
  • Número de seguidores
  • Número de contas que o autor segue
  • Proporção do número de seguidores para as contas seguidas , pois um número maior de seguidores em comparação com os seguidos transmite maior popularidade junto com o número bruto de seguidores. Uma razão mais próxima de 1 indicaria um quid pro quo seguindo a filosofia por parte do Autor, tornando menos possível inferir popularidade e dando uma aparência de popularidade artificial.
  • Número de Tweets Postados pelo Autor por Período (por exemplo: por dia ou por semana).
  • Idade da conta (meses desde a abertura da conta, por exemplo) – com contas que foram criadas muito recentemente com peso muito menor.
  • Confiar.

Tópicos

Os tweets são classificados de acordo com os tópicos que envolvem. Existem alguns algoritmos muito sofisticados envolvidos na classificação dos Tweets.

Os usuários do Twitter geralmente selecionam tópicos para serem associados às suas contas e, obviamente, você verá Tweets populares dos tópicos que você selecionou. Mas, o Twitter também cria tópicos automaticamente com base em palavras-chave encontradas em Tweets.

Com base em suas interações com os Tweets e as contas que você segue, o Twitter também está prevendo tópicos nos quais você provavelmente estaria interessado e mostrando alguns Tweets desses tópicos, apesar de você não se inscrever formalmente nos tópicos.

Classificação de frase

O sistema do Twitter é altamente complexo e permite que modelos de classificação personalizados sejam potencialmente aplicados a Tweets para tópicos específicos e quando frases específicas estiverem presentes.

O Twitter tem uma grande equipe que trabalha para desenvolver modelos para “jornadas do cliente” específicas, e isso parece coincidir com descrições de patentes de como os editores podem definir regras para postagens orientadas a tópicos e palavras-chave ou frases nas postagens.

Por exemplo, postagens contendo texto sobre “contratando agora” ou “estará na TV” podem ser consideradas chatas para um tópico, enquanto frases como “fresco”, “à venda” ou “somente hoje” podem receber maior peso, pois poderia ser previsto para ser mais interessante.

Isso pode ser bastante difícil de atender, pois há um enorme campo de tópicos em potencial e ponderações personalizadas que podem ser aplicadas.

Uma recente postagem de trabalho no Twitter para um Designer de Produto da Equipe, Customer Journey descreveu como a posição ajudaria:

“Esteja você procurando fanart de Ariana Grande, #herpetology ou monociclismo extremo, tudo está acontecendo no Twitter. Nossa equipe é responsável por ajudar os novos membros a navegar pela diversidade de conversas públicas que acontecem no Twitter e encontrar rapidamente um sentimento de pertencimento…”

“Reúna insights de dados e pesquisas qualitativas, desenvolva hipóteses, esboce soluções com protótipos e teste ideias com nossa equipe de pesquisa e em experimentos.”

“Documentar modelos de interação detalhados e especificações de interface do usuário.”

“Experiência em design para aprendizado de máquina, taxonomias ricas e/ou gráficos de interesse.”

Esta descrição soa muito semelhante ao que está descrito na patente do Twitter para “Sistema e método para determinar a relevância do conteúdo social” onde:

“Os editores podem definir regras para classificar certas frases como mais ou menos interessantes…”

“…um editor pode decidir que algumas frases e atributos são interessantes em todo o conteúdo, independentemente da categoria de lugar que o autor do conteúdo. Por exemplo, a frase 'à venda' ou 'evento' pode ser interessante em todos os casos e um peso positivo pode ser aplicado.”

Uma patente descreve como os Tweets detectados como tendo linguagem comercial podem receber uma pontuação menor do que os Tweets que não têm linguagem comercial. (Ao contrário, esses pesos podem ser invertidos se o usuário estiver realizando pesquisas indicando interesse em comprar algo, para que os Tweets que contenham linguagem comercial possam receber um peso maior.)

Hora do dia

A hora do dia pode ser usada para impactar a relevância. Por exemplo, uma regra poderia ser implementada para dar mais peso a Tweets que mencionam “Café” entre 8h e 10h e/ou a Tweets postados por cafeterias.

Localizações

As patentes descrevem como “referências de lugar” em Tweets podem invocar um peso maior para Tweets sobre um lugar e/ou para contas associadas à referência de lugar em comparação com outras contas que apenas mencionam o lugar. Além disso, a proximidade geográfica entre a localização do dispositivo de um usuário e a localização associada aos itens de conteúdo (o texto, a imagem, o vídeo e/ou o autor do Tweet) pode aumentar ou diminuir a relevância potencial.

Linguagem

O idioma do Tweet pode ser classificado (por exemplo, inglês, francês etc.).

O idioma pode ser determinado automaticamente usando várias ferramentas automatizadas de avaliação de idioma.

Um Tweet em um idioma específico seria mais interessante para os falantes do idioma e menos interessante para os outros.

Responder tweets

Os Tweets podem ser classificados com base no fato de serem respostas a Tweets anteriores. Um Tweet que é uma resposta a um Tweet anterior pode ser considerado menos interessante do que um Tweet referente a um novo tópico.

Em uma descrição de patente, o tópico de um Tweet pode determinar se o Tweet será designado para ser exibido em outra conta ou incluído nos fluxos de mensagens de outras contas.

Quando você está visualizando sua linha do tempo, há casos em que algumas das respostas de um Tweet também são exibidas com o Tweet principal – como quando os Tweets de resposta são postados por contas que você segue. Na maioria dos casos, os Tweets de Resposta só poderão ser visualizados quando alguém clicar para ver o tópico ou clicar no Tweet para ver todas as Respostas.

Contas “abençoadas”

Este é um conceito estranho, que acredito não estar em produção.

O Twitter descreve Contas Abençoadas como sendo identificadas dentro do gráfico de uma conversa em particular, onde o Autor original em uma conversa seria considerado “abençoado”, e das respostas subsequentes à postagem original, qualquer uma das Respostas que é posteriormente respondida pelo conta abençoada torna-se “abençoada” também.

Esses Tweets postados por Contas Abençoadas na conversa receberiam pontuações de relevância aumentadas.

Perfil do site

Isso não é mencionado nas patentes do Twitter, mas faz muito sentido no contexto de todos os outros fatores que eles mencionaram para deixar passar.

Muitos dos principais sites de conteúdo frequentemente têm seus links compartilhados no Twitter, e o Twitter pode facilmente criar uma pontuação de reputação/popularidade do perfil do site que também pode influenciar as classificações dos Tweets quando os links para o conteúdo dos sites são postados.

Sites de notícias, recursos de informação, sites de entretenimento – tudo isso pode ter pontuações desenvolvidas a partir dos mesmos fatores usados ​​para avaliar as contas do Twitter. Tweets de sites mais apreciados e mais engajados podem receber mais peso do que sites relativamente desconhecidos e com menos interação.

Verificado pelo Twitter

Sim, se você suspeitar que o emblema azul ao lado dos nomes de usuário transmite tratamento preferencial, há um palavreado específico em uma das patentes do Twitter que confirma que eles pelo menos consideraram isso.

Como as contas verificadas geralmente já têm vários outros indicadores de popularidade associados a elas, não fica claro se esse fator está em uso ou não. Os Tweets postados por uma conta Verificada podem receber uma pontuação de relevância mais alta, permitindo que apareçam mais do que os Tweets de contas não verificadas.

Aqui está a descrição da patente:

“Em uma ou mais modalidades da invenção, o módulo de conversação (120) inclui a funcionalidade para aplicar um filtro de relevância para aumentar as pontuações de relevância de uma ou mais contas de autoria do gráfico de conversação que são identificadas em uma lista branca de contas verificadas. Por exemplo, a lista de permissões de contas verificadas pode ser uma lista de contas de alto perfil suscetíveis à falsificação de identidade. Neste exemplo, contas de celebridades e negócios seriam verificadas pela plataforma de mensagens (100) para notificar os usuários da plataforma de mensagens (100) que as contas são autênticas. Em uma ou mais modalidades da invenção, o módulo de conversação (120) é configurado para aumentar as pontuações de relevância de contas de autoria verificadas por uma quantidade/porcentagem predefinida.”

Tendência

Este é um sinalizador binário que indica se o Tweet foi identificado como contendo um tópico que estava em alta no momento em que a mensagem foi transmitida.

Sexo, orientação sexual e interesses detectados pelo aplicativo

O Twitter pode usar as informações do dispositivo móvel de um titular de conta para inferir o sexo do titular da conta ou inferir interesses em tópicos como notícias, esportes, musculação e outros tópicos.

Alguns dispositivos móveis fornecem informações sobre outros aplicativos carregados no telefone para fins de diagnóstico de possíveis conflitos de programação de aplicativos. Assim, alguns Tweets que correspondam ao seu gênero, orientação sexual e interesses tópicos podem receber mais pontos de interesse simplesmente com base nas inferências feitas nos aplicativos do seu telefone. (Veja: https://screenrant.com/android-apps-collecting-app-data/ )

E mais fatores de classificação

O Twitter afirma que:

“Nossa lista de recursos considerados e suas interações variadas continua crescendo, informando nossos modelos de padrões de comportamento cada vez mais sutis.”

Portanto, essa lista de fatores provavelmente é uma sub-representação dos fatores que eles podem estar usando, e sua lista pode estar se expandindo.

Imagine também que uma combinação personalizada de alguns dos fatores acima pode ser aplicada como modelos para Tweets associados a tópicos específicos, dando uma grande complexidade potencial aos rankings por meio de métodos de aprendizado de máquina. (Novamente, o aprendizado de máquina aplicado para criar modelos de ponderação de classificação personalizados para consultas ou tópicos específicos é muito semelhante aos métodos que provavelmente estão em uso com o Google.)

O Twitter afirmou que a pontuação dos Tweets acontece cada vez que alguém visita o Twitter e cada vez que atualiza sua linha do tempo. Considerando alguns dos fatores complexos envolvidos, isso é muito rápido!

O Twitter usa testes A/B de ponderações de fatores de classificação e outras alterações de algoritmo e determina se uma alteração proposta é uma melhoria com base no engajamento e tempo de visualização/interação com um Tweet. Isso é usado para treinar modelos de classificação.

O envolvimento do aprendizado de máquina nesse processo sugere que modelos de classificação podem ser produzidos para muitos cenários específicos e potencialmente específicos para tópicos e tipos de usuários específicos. Uma vez desenvolvido, o modelo pode ser testado e, se melhorar o engajamento, pode ser implementado rapidamente para todos os usuários.

Como os profissionais de marketing podem usar essas informações

Há muitas inferências que podem ser extraídas da lista de fatores de classificação em potencial e que podem ser usadas pelos profissionais de marketing para melhorar suas táticas de tweeting.

Uma conta do Twitter que publica apenas anúncios sobre seus produtos e informações promocionais sobre sua empresa provavelmente não terá tanta visibilidade quanto contas mais interativas com sua comunidade, porque as interações produzem mais sinais de classificação e benefícios potenciais.

Especialistas em mídia social há muito recomendam uma abordagem de misturar tipos de postagens em vez de apenas publicar promoção autorreferencial – essas estratégias incluem “A regra dos terços”, “A regra 80/20” e outras.

Os fatores de classificação do Twitter provavelmente apóiam essas teorias, pois obter mais interações com o número de usuários do Twitter provavelmente aumentará a visibilidade de uma conta.

Por exemplo, uma conta de grande empresa com muitos seguidores pode postar uma enquete interessante para obter conselhos sobre quais recursos adicionar ao seu produto. Os votos e comentários postados pelos usuários farão com que os respondentes tenham muito mais chances de ver a próxima postagem da empresa devido às interações recentes, e que a próxima postagem pode estar promovendo ou anunciando algo novo. E, os seguidores dos entrevistados também podem estar mais propensos a ver a próxima postagem da empresa, já que o Twitter parece levar em conta que usuários com interesses semelhantes podem estar mais abertos a ver conteúdo que corresponda aos seus interesses.

Além disso, os fatores sugerem uma série de abordagens potencialmente benéficas.

Ao postar um Tweet promovendo um produto ou fazendo um anúncio, combinar algo para obter uma resposta de seus seguidores pode facilmente expandir a exposição na plataforma, pois as respostas de cada respondente ao seu Tweet podem aumentar as chances de que seus seguidores diretos vejam o Tweet original e seus resposta da conexão Tweet.

Aproveitar o aspecto gráfico social do algoritmo do Twitter pode ajudar a aumentar o interesse de seus Tweets e pode aumentar a exposição de seus Tweets para outros usuários.

Fatores de spam podem afetar negativamente os rankings de tweets

Os algoritmos de detecção de spam podem afetar negativamente a capacidade de classificação do Tweet.

Por um lado, o Twitter é muito rápido em suspender contas que são descaradamente spam e, nos casos em que é óbvio e inequívoco, pode-se esperar que a conta seja encerrada abruptamente, fazendo com que todos os seus Tweets desapareçam dos gráficos e linhas do tempo das conversas, e fazendo com que o perfil da conta não esteja mais disponível para visualização.

Em outros casos ainda em que não está tão claro se uma conta é spam, os Tweets da conta podem simplesmente ser rebaixados pela aplicação de pontuações de peso de classificação negativa, ou os Tweets podem ser bloqueados ou suspensos até que o titular da conta tome uma ação corretiva ou verifica sua identidade.

Por exemplo, uma conta do Twitter com um longo histórico de bons Tweets pode começar abruptamente a postar anúncios de Viagra ou links para malware, como se uma conta estabelecida fosse invadida. O Twitter pode suspender temporariamente a conta até que ações corretivas sejam tomadas, como passar por uma verificação CAPTCHA ou receber um código de verificação pelo celular e alterar as senhas. Outro exemplo pode ser um novo usuário que acidentalmente ultrapassa algum limite de seguir muitas contas em um curto período de tempo ou postar com um pouco de frequência.

O Twitter emprega vários métodos para detectar spam e marginalizá-lo para que os usuários o vejam menos.

Grande parte da detecção automatizada depende da detecção de uma combinação de características do perfil da conta, comportamentos de Tweets da conta e conteúdo encontrado nos Tweets da conta.

O Twitter desenvolveu um número de “impressões digitais” características de spam para realizar a detecção rápida de padrões. Uma patente do Twitter descreve como:

“Spam é determinado comparando características de contas de spam identificadas e construindo um 'gráfico de similaridade' que pode ser comparado com outras contas suspeitas de spam.”

Tweets identificados como potencialmente contendo spam podem ser sinalizados com um valor binário como "sim" ou "não", e os Tweets sinalizados podem ser filtrados para fora das linhas do tempo.

É igualmente possível que haja uma escala de spam, calculada a partir de vários fatores, e uma vez que um Tweet ou conta ultrapasse um limite, ele sofre rebaixamento. Acho que vale a pena mencionar isso, pois os usuários do Twitter podem não entender as implicações de como usar a plataforma. Por exemplo, postar um Tweet excessivamente agressivo pode afetar negativamente os Tweets subsequentes de uma conta por algum período de tempo. O comportamento nervoso repetido pode resultar em pior, como a exclusão completa da conta, sem oportunidade de recuperação.

Acrescentarei alguns fatores aqui que não são especificamente mencionados nas patentes do Twitter ou nas postagens do blog porque o Twitter não revela todos os fatores de identificação de spam por motivos óbvios. Mas algumas características de conta de spam e spam parecem tão óbvias que estou adicionando algumas de observações pessoais ou de fontes de pesquisa bem conceituadas para fornecer uma compreensão mais ampla do que pode incorrer em rebaixamentos de spam.

Fatores de spam e outros fatores de classificação negativos

  • Tweets contendo uma mensagem comercial postada sem uma relação seguidor/seguido ou em uma relação unidirecional (o Autor do Tweet está seguindo a conta que está mencionando, mas a conta receptora não segue o Autor), mas eles não tiveram interações anteriores, começam a parecer suspeito. Se isso for feito muitas vezes com texto semelhante ou idêntico, não demorará muito para que isso seja considerado atividade de spam, especialmente para contas mais recentes.
  • Idade da conta – onde a idade mostra que a conta foi configurada muito recentemente. (Pesquisa recente do SparkToro sobre spam no Twitter sugere idade da conta de 90 dias ou menos.)
  • Sinalizador NSFW da conta – a conta tem um sinalizador indicando que foi identificada por ter links para sites documentados em uma lista negra de sites potencialmente ofensivos (como sites com pornografia, materiais explícitos, gore, etc.).
  • Sinalizador ofensivo – o Tweet foi identificado como contendo um ou mais termos de uma lista negra de termos ofensivos.
  • Conta potencialmente falsa – a conta é suspeita de se passar por uma pessoa ou organização real e não foi verificada.
  • Account Posting Frequent Copyright Infringement
  • Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
  • Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
  • Tweets containing offensive language might be allowed to erode their interestingness score.
  • Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
  • Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
  • Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
  • Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
  • Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
  • Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
  • High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
  • CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
  • Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
  • Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
  • Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
  • Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
  • Tweets Containing Affiliate Links – self explanatory.
  • Frequent Requests to Befriend Users in a Short Time Frame
  • Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
  • Accounts that Tweet Only URLs
  • Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
  • Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
  • Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
  • Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
  • Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
  • Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
  • Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
  • Profile Descriptions Matching Spammer Keywords/Patterns
  • Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
  • Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.

Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.

The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.

Para concluir

Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.

The AI components include:

  • Neural networks.
  • Natural language processing.
  • Circumflex calculation.
  • Markov modeling.
  • Logistic regression.
  • Decision tree analysis.
  • Random forest analysis.
  • Supervised and unsupervised machine learning.

As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.

Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.

Author's disclosure

I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.

As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.

In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.

I have not disclosed any information covered by the protective order in this article from my recently-resolved case.

I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:

  • Identificando mensagens relevantes em um gráfico de conversa
  • Fornecimento de conteúdo para transmissão por uma plataforma de mensagens
  • Promovendo conteúdo em uma plataforma de mensagens em tempo real
  • Sistema e método para determinar a relevância do conteúdo social
  • Sistemas e métodos para estabelecer ou manter uma rede social confiável personalizada
  • Exibindo mensagens relevantes de um gráfico de conversa
  • Infraestrutura de pesquisa
  • Filtragem de visibilidade
  • Priorizando mensagens em uma rede de mensagens
  • Construtor de gráfico de aplicativo
  • Usando Deep Learning em escala nas linhas do tempo do Twitter
  • Sistemas e métodos anti-spam de várias camadas
  • Detectando interações com script ou de outra forma anômalas com a plataforma de mídia social
  • Como o Twitter está combatendo spam e automação maliciosa
  • Contas suspensas em retrospecto: uma análise do spam do Twitter
  • Análise do Twitter: 19,42% das contas ativas são falsas ou spam

As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land. Os autores da equipe estão listados aqui.