Facteurs de classement de l'algorithme de Twitter : un guide définitif
Publié: 2022-07-01Les brevets de Twitter et d'autres publications révèlent des aspects probables de la façon dont les tweets sont promus dans les flux chronologiques des utilisateurs.
Certains des facteurs de classement de la chronologie de Twitter sont très surprenants, et ajuster votre approche des Tweets peut vous aider à obtenir une plus grande visibilité de vos Tweets.
Sur la base d'un certain nombre de brevets clés et d'autres sources, j'ai décrit ici un certain nombre de facteurs de classement probables pour l'algorithme de Twitter.
La chronologie de Twitter
Twitter a commencé à utiliser une chronologie basée sur un algorithme en 2016 lorsqu'il est passé de ce qui était purement un flux chronologique de Tweets de tous les comptes suivis. Le changement a classé les fils d'actualités des utilisateurs pour leur permettre de voir « les meilleurs Tweets en premier ». Twitter a depuis expérimenté des variantes de cela jusqu'à présent.
Un algorithme basé sur les flux pour les médias sociaux n'est pas inhabituel. Facebook et d'autres plateformes de médias sociaux ont fait de même.
Les raisons de ce passage à un mélange algorithmique de Tweets chronologiques sont assez claires. Une chronologie purement personnelle et chronologique composée uniquement des comptes que l'on a suivis est très cloisonnée et donc limitée - tandis que l'introduction de publications à partir de comptes au-delà de ses connexions directes a le potentiel d'augmenter le temps passé sur la plate-forme, ce qui à son tour augmente l'adhérence globale, ce qui, à son tour, augmente la valeur du service pour les annonceurs et les partenaires de données.
Diverses classifications d'intérêts d'utilisateurs et de sujets d'intérêt associés à leurs comptes et tweets permettent en outre un potentiel de ciblage publicitaire basé sur des données démographiques d'utilisateurs et des sujets de contenu.
Les utilisateurs expérimentés de Twitter peuvent avoir développé des intuitions sur divers facteurs de Tweet qui peuvent entraîner une plus grande visibilité au sein de l'algorithme.
Rappel sur les brevets
Les entreprises enregistrent tout le temps des brevets pour des inventions qu'elles n'utilisent pas réellement en service réel. Lorsque je travaillais chez Verizon, j'ai personnellement rédigé un certain nombre de brouillons de brevets pour diverses inventions que mes collègues et moi avons développées au cours de notre travail, y compris des choses que nous n'avons finalement pas utilisées en production.
Ainsi, le fait que Twitter ait des brevets qui mentionnent des idées sur la façon dont les choses pourraient fonctionner ne garantit pas du tout que c'est ainsi que les choses fonctionnent .
En outre, les brevets contiennent généralement plusieurs modes de réalisation, qui sont essentiellement diverses manières de mettre en œuvre une invention - les brevets tentent de décrire les éléments clés d'une invention aussi largement que possible afin de revendiquer toute utilisation possible qui pourrait lui être attribuée.
Enfin, tout comme avec le célèbre brevet d'algorithme PageRank qui était à la base du moteur de recherche de Google, dans les cas où Twitter a utilisé une incarnation de l'un de leurs brevets, il est fort probable qu'ils aient modifié et affiné les inventions simples et larges décrites, Et continueront à le faire.
Même malgré tout ce flou et cette incertitude typiques, j'ai trouvé un certain nombre de concepts très intéressants dans les descriptions de brevets de Twitter, dont beaucoup sont très susceptibles d'être incorporés dans leur système.
Twitter et l'apprentissage en profondeur
Une mise en garde supplémentaire avant de poursuivre concerne la façon dont l'algorithme de chronologie de Twitter a intégré Deep Learning dans son ADN, couplé à différents niveaux de supervision humaine, ce qui en fait une bête qui évolue fréquemment, sinon constamment.
Cela signifie que des changements importants et de petits changements incrémentiels peuvent se produire et se produiront dans la façon dont il effectue le classement du contenu. De plus, cette approche d'apprentissage automatique peut conduire à des conditions dans lesquelles les propres ingénieurs humains de Twitter peuvent ne pas savoir directement et précisément pourquoi certains contenus sont affichés ou surpassent d'autres contenus en raison de l'abstraction des modèles de classement produits, similaires à ce que j'ai décrit lorsque j'écrivais sur les modèles produits par Google. classement de la qualité grâce à l'apprentissage automatique.
Malgré la complexité et la sophistication du fonctionnement de l'algorithme de Twitter, comprendre les facteurs susceptibles d'entrer dans la boîte noire peut encore révéler ce qui influence les classements.
La chronologie d'origine de Twitter était simplement composée de tous les Tweets des comptes que l'on a suivis depuis sa dernière visite, qui ont été collectés et affichés dans l'ordre chronologique inverse avec les Tweets les plus récents affichés en premier, et chaque Tweet précédent affiché l'un après l'autre en défilant vers le bas.
L'algorithme actuel est toujours largement composé de cette même liste chronologique inversée de Tweets, mais Twitter effectue un reclassement pour essayer d'afficher les Tweets les plus intéressants en premier lieu parmi les Tweets récents.
En arrière-plan, les Tweets se sont vu attribuer un score de classement par un modèle de pertinence qui prédit à quel point chaque Tweet est susceptible d'être intéressant pour vous, et cette valeur de score dicte l'ordre de classement.
Les Tweets avec les scores les plus élevés sont affichés en premier dans votre liste de chronologie, le reste des Tweets les plus récents étant affiché plus bas. Il est à noter que votre fil d'actualités contient désormais également des Tweets de comptes que vous ne suivez pas , ainsi que quelques Tweets publicitaires.
Graphique de connexion de Twitter
Tout d'abord, l'un des aspects les plus influents de la chronologie de Twitter est la façon dont Twitter affiche désormais les Tweets en fonction non seulement de vos connexions directes à ce stade, mais essentiellement de votre graphe social unique, auquel Twitter fait référence dans les brevets comme un " graphique de connexion ».
Le graphe de connexion représente les comptes sous forme de nœuds et les relations sous forme de lignes (« arêtes ») reliant un ou plusieurs nœuds. Une relation peut faire référence à des associations entre des comptes Twitter.
Par exemple, suivre, s'abonner (par exemple via le programme Super Follows de Twitter ou, potentiellement, pour la fonction d'abonnement annoncée de Twitter pour les requêtes de mots clés), aimer, marquer, etc. - tout cela crée des relations.
Les relations dans un graphe de connexion peuvent être unidirectionnelles (par exemple, je vous suis) ou bidirectionnelles (par exemple, nous nous suivons tous les deux). Si je vous suis, mais que vous ne me suivez pas, je m'attendrais davantage à voir vos Tweets et Retweets apparaître dans ma chronologie, mais vous ne vous attendriez pas nécessairement à voir les miens.
Simplement sur la base du graphique de connexion, vous êtes susceptible de voir les Tweets et les Retweets de ceux que vous avez suivis, ainsi que les Tweets que vos connexions ont aimés ou auxquels ils ont répondu.
L'algorithme de Twitter a étendu les Tweets que vous pouvez voir au-delà des comptes avec lesquels vous avez directement interagi. Les Tweets que vous pouvez voir dans votre journal incluent désormais également les Tweets d'autres personnes qui publient sur des sujets que vous avez suivis, des Tweets similaires à certains égards aux Tweets que vous avez déjà aimés et des Tweets basés sur des sujets que l'algorithme prédit que vous pourriez aimer.
Même parmi ces types étendus de Tweets que vous pouvez recevoir, le système de classement de l'algorithme s'applique - vous ne recevez pas tous les Tweets correspondant à vos sujets, goûts et intérêts prévus - vous recevez une liste organisée par l'algorithme de Twitter.
Classement d'intérêt
Dans l'ADN d'un certain nombre de brevets et d'algorithmes de classement des Tweets de Twitter se trouve le concept d'"intérêt".
Cela a très probablement été inspiré par un brevet accordé à Yahoo en 2006 appelé "Classement d'intérêt des objets multimédias", qui décrivait les méthodes de classement utilisées dans l'algorithme de Flickr (le service dominant de partage de photos sur les réseaux sociaux qui a ensuite été éclipsé par Instagram et Pinterest).
Cet algorithme antérieur pour Flickr présente de nombreuses similitudes avec les brevets contemporains de Twitter. Il a utilisé des facteurs similaires et même identiques pour calculer l'intérêt. Celles-ci comprenaient :
- Informations de localisation.
- Métadonnées de contenu.
- Chronologie.
- Modèles d'accès des utilisateurs.
- Signaux d'intérêt (tels que le marquage, les commentaires, les favoris).
On pourrait facilement décrire l'algorithme de Twitter comme prenant l'algorithme d'intérêt de Flickr, développant certains des facteurs impliqués, le calculant à travers un processus d'apprentissage automatique plus sophistiqué, interprétant le contenu basé sur le traitement du langage naturel (NLP) et incorporant un certain nombre de variations supplémentaires pour permettent une présentation rapide en temps quasi réel pour un nombre gargantuesque d'utilisateurs simultanément.
Classement Twitter et spam
Il est également intéressant de se concentrer sur les méthodes utilisées par Twitter pour détecter les spams, les comptes d'utilisateurs indésirables et pour rétrograder ou supprimer les spams de Tweets.
La surveillance de la désinformation, d'autres contenus enfreignant les politiques et du harcèlement est également intense, mais cela ne converge pas nécessairement autant avec les évaluations de classement.
Certains des brevets de détection de spam sont intéressants car je vois des utilisateurs échouer fréquemment dans les processus de suppression de spam de Twitter, et il y a un certain nombre de choses que l'on peut faire qui entraînent des efforts de sac de sable pour promouvoir et interagir avec le public de Twitter. Twitter a dû mettre en place des processus de surveillance agressifs pour contrôler et supprimer les spams, et même les utilisateurs les plus importants peuvent parfois enfreindre ces processus.
Ainsi, une compréhension des facteurs de spam de Twitter peut être importante car ils peuvent faire en sorte que les Tweets soient déduits de l'intérêt qu'ils auraient autrement, et cette perte des scores de pertinence peut réduire la visibilité et le pouvoir de distribution de vos Tweets.
Facteurs de classement Twitter
Alors, quels sont les facteurs mentionnés dans les brevets de Twitter pour évaluer « l'intérêt », et qui influencent la façon dont Twitter note les Tweets pour les classements ?
Récence de la publication du Tweet
Les plus récents étant généralement beaucoup plus préférés. Mis à part les mots clés spécifiques et d'autres types de recherches, la plupart des Tweets datent des dernières heures. Certains Tweets "au cas où vous l'auriez manqué" peuvent également être inclus, qui semblent s'étendre principalement sur le dernier jour ou les deux derniers.
Images ou vidéo
En général, en général, Google et d'autres plateformes ont indiqué que les utilisateurs ont tendance à préférer les images et les médias vidéo, donc un Tweet contenant l'un ou l'autre pourrait obtenir un score plus élevé.
Twitter cite spécifiquement les cartes image et vidéo, qui font référence aux sites Web qui ont mis en œuvre les cartes Twitter, ce qui permet à Twitter d'afficher facilement des extraits de prévisualisation plus riches lorsque les Tweets contiennent des liens vers des pages Web avec le balisage de la carte.
Les Tweets avec des liens qui affichent des images et des vidéos sont généralement plus attrayants pour les utilisateurs, mais il peut y avoir un avantage supplémentaire pour les Tweets renvoyant aux pages avec le balisage de la carte pour afficher le contenu de la carte
Interactions avec le Tweet
Twitter cite les Likes et les Retweets, mais des mesures supplémentaires liées au Tweet pourraient également s'appliquer ici. Les interactions incluent :
- Aime
- Retweets
- Clics vers des liens qui peuvent se trouver dans le Tweet
- Clics vers les hashtags dans le Tweet
- Clics vers les comptes Twitter mentionnés dans le Tweet
- Détail développé – clique pour afficher les détails du Tweet, par exemple pour voir qui l'a aimé ou retweeté.
- Nouveaux abonnés - combien de personnes ont survolé le nom d'utilisateur, puis cliqué pour suivre le compte.
- Visites de profil - combien de personnes ont cliqué sur l'avatar ou le nom d'utilisateur pour visiter le profil de l'affiche.
- Partages – combien de fois le Tweet a été partagé via le bouton de partage.
- Réponses au Tweet
Impressions
Alors que la plupart des impressions proviennent de l'affichage du Tweet dans les fils, certaines impressions sont dérivées lorsque les Tweets sont partagés via l'intégration dans des pages Web. Il est possible que ces nombres d'impressions affectent également le score d'intérêt du Tweet.
Probabilité d'interactions
Un brevet Twitter décrit le calcul d'un score pour un Tweet représentant la probabilité que les abonnés de l'auteur du Tweet dans le système de messagerie sociale interagissent avec le message, le score étant basé sur l'écart de niveau d'interaction calculé entre le niveau d'interaction observé des abonnés de l'auteur et le niveau d'interaction attendu des abonnés.
Longueur du Tweet
Un type de classification est la longueur du texte contenu dans le Tweet, qui peut être classé comme une valeur numérique (par exemple 103 caractères), ou il peut être désigné comme l'une des quelques catégories (par exemple, court, moyen ou long) .
Selon les sujets impliqués dans un Tweet, celui-ci peut être jugé plus ou moins intéressant - pour certains sujets, un court peut être plus avantageux, et pour d'autres sujets, une longueur moyenne ou longue peut rendre le Tweet plus intéressant.
Interactions avec les auteurs précédents
Les interactions passées avec l'auteur d'un Tweet augmenteront la probabilité (et le score de classement dans sa chronologie) de voir d'autres Tweets du même auteur.
Ces métriques d'interaction de graphe social peuvent inclure une notation en fonction de l'origine de la relation.
Ainsi, un historique de réponse, d'appréciation ou de retweetage des Tweets d'un auteur, même si l'on ne suit pas ce compte, peut augmenter la probabilité de voir ses derniers Tweets.
Il est probable que les interactions récentes d'une personne avec un auteur de Tweet puissent également être prises en compte. Par conséquent, si vous n'avez pas interagi avec l'un de ses Tweets depuis longtemps, la visibilité potentielle de ses Tweets les plus récents peut diminuer pour vous.
Dans le contexte de l'algorithme, « auteur » et « compte » sont essentiellement utilisés pour signifier la même chose, de sorte que les Tweets d'un compte d'entreprise sont traités de la même manière que les Tweets d'un particulier.
Cote de crédibilité de l'auteur
Ce score peut être calculé par les relations et les interactions d'un auteur avec d'autres utilisateurs.
L'exemple donné dans le brevet est qu'un auteur suivi de plusieurs comptes de haut niveau ou prolifiques aurait un score de crédibilité élevé.
Bien qu'une valeur de notation citée soit "faible", "moyenne" et "élevée", le brevet suggère également une échelle de valeurs de notation de 1 à 10, et elle peut inclure un facteur qualitatif et/ou quantitatif.
Je suppose qu'une plage comme 1 à 10 est beaucoup plus probable. Il semble probable que certaines des valeurs d'évaluation du spam pourraient être utilisées pour soustraire d'une cote de crédibilité de l'auteur. Plus d'informations sur les facteurs potentiels d'évaluation du spam dans la dernière partie de cet article.
Pertinence de l'auteur
Il est possible que les auteurs jugés plus pertinents pour un sujet particulier aient une valeur de pertinence de l'auteur plus élevée. De plus, les mentions d'un Auteur peuvent les rendre plus pertinents dans le contexte des Tweets qui les mentionnent.
Les brevets parlent également d'associer des auteurs à des sujets, il est donc possible que les auteurs qui tweetent fréquemment sur des sujets spécifiques, ainsi que de bons taux d'engagement, soient considérés comme ayant une pertinence plus élevée lorsque leurs tweets impliquent ce sujet.
Métriques de l'auteur
Les tweets peuvent être classés en fonction des propriétés de l'auteur. Ces mesures peuvent influencer l'intérêt relatif des messages de l'Auteur. Ces métriques d'auteur incluent :
- Emplacement de l'auteur (comme la ville ou le pays)
- Âge (basé sur la date de naissance qui peut être indiquée dans les détails du compte)
- Nombre d'abonnés
- Nombre de comptes suivis par l'auteur
- Ratio du nombre d'abonnés aux comptes suivis , car un plus grand nombre d'abonnés par rapport à suivi transmet une plus grande popularité avec le nombre brut d'abonnés. Un rapport plus proche de 1 indiquerait une contrepartie suivant la philosophie de la part de l'auteur, rendant moins possible de déduire la popularité et donnant une apparence de popularité artificielle.
- Nombre de Tweets publiés par l'auteur par période (par exemple : par jour ou par semaine).
- Âge du compte (mois depuis l'ouverture du compte, par exemple) - les comptes qui ont été créés très récemment ont un poids beaucoup plus faible.
- Confiance.
Les sujets
Les tweets sont classés en fonction des sujets qu'ils impliquent. Il existe des algorithmes très sophistiqués impliqués dans la classification des Tweets.
Les utilisateurs de Twitter ont souvent sélectionné des sujets à associer à leurs comptes, et vous verrez évidemment les Tweets populaires des sujets que vous avez sélectionnés. Mais, Twitter crée également automatiquement des sujets basés sur des mots-clés trouvés dans les Tweets.
Sur la base de vos interactions avec les Tweets et les comptes que vous suivez, Twitter prédit également les sujets susceptibles de vous intéresser et vous montre certains Tweets de ces sujets même si vous n'y êtes pas officiellement abonné.
Classement des expressions
Le système de Twitter est très complexe et permet d'appliquer potentiellement des modèles de classement personnalisés aux Tweets pour des sujets particuliers et lorsque des phrases particulières sont présentes.
Twitter dispose d'une équipe nombreuse qui travaille à développer des modèles pour des "parcours clients" particuliers, et cela semblerait coïncider avec les descriptions brevetées de la façon dont les éditeurs pourraient définir des règles sur les publications thématiques et les mots-clés ou expressions dans les publications.
Par exemple, les messages contenant du texte sur "embauche maintenant" ou "sera à la télévision" peuvent être considérés comme ennuyeux pour un sujet, tandis que des expressions telles que "nouveau", "en vente" ou "aujourd'hui seulement" peuvent avoir plus de poids car ils on peut s'attendre à ce qu'il soit plus intéressant.
Cela pourrait être assez difficile à gérer, car il existe un vaste champ de sujets potentiels et de pondérations personnalisées qui pourraient être appliqués.
Une offre d'emploi récente sur Twitter pour un concepteur de produits du personnel, Customer Journey, a décrit comment le poste aiderait :
« Que vous recherchiez le fanart d'Ariana Grande, l'#herpétologie ou le monocycle extrême, tout se passe sur Twitter. Notre équipe est chargée d'aider les nouveaux membres à naviguer dans le large éventail de conversations publiques qui se déroulent sur Twitter et à trouver rapidement un sentiment d'appartenance… »
"Recueillez des informations à partir de données et de recherches qualitatives, développez des hypothèses, esquissez des solutions avec des prototypes et testez des idées avec notre équipe de recherche et lors d'expériences."
"Documenter des modèles d'interaction détaillés et des spécifications d'interface utilisateur."
"Expérience de conception pour l'apprentissage automatique, les taxonomies riches et / ou les graphiques d'intérêt."
Cette description semble très similaire à ce qui est décrit dans le brevet de Twitter pour "Système et méthode pour déterminer la pertinence du contenu social" où :
"Les éditeurs peuvent établir des règles pour classer certaines phrases comme plus ou moins intéressantes..."
« … un éditeur peut décider que certaines phrases et attributs sont intéressants dans tout contenu, quelle que soit la catégorie de lieu qui a créé le contenu. Par exemple, l'expression « en solde » ou « événement » peut être intéressante dans tous les cas et un poids positif peut être appliqué. »
Un brevet décrit comment les Tweets détectés comme ayant un langage commercial pouvaient se voir attribuer un score inférieur à celui des Tweets qui n'avaient pas de langage commercial. (Au contraire, ces pondérations pourraient être inversées si l'utilisateur effectuait des recherches indiquant un intérêt à acheter quelque chose, de sorte que les Tweets contenant un langage commercial pourraient se voir attribuer une pondération plus élevée.)
Moment de la journée
L'heure de la journée peut être utilisée pour influer sur la pertinence. Par exemple, une règle pourrait être mise en place pour donner plus de poids aux Tweets mentionnant « Café » entre 8h00 et 10h00, et/ou aux Tweets postés par les coffee shops.
Emplacements
Les brevets décrivent comment les « références de lieu » dans les Tweets pourraient donner plus de poids aux Tweets concernant un lieu et/ou aux comptes associés à la référence de lieu par rapport à d'autres comptes qui mentionnent simplement le lieu. De plus, la proximité géographique entre l'emplacement de l'appareil d'un utilisateur et l'emplacement associé aux éléments de contenu (le texte, l'image, la vidéo et/ou l'auteur du Tweet) peut augmenter ou diminuer la pertinence potentielle.
Langue
La langue du Tweet peut être classée (par exemple, anglais, français, etc.).
La langue peut être déterminée automatiquement à l'aide de divers outils d'évaluation linguistique automatisés.
Un Tweet dans une langue particulière serait plus intéressant pour les locuteurs de la langue et moins intéressant pour les autres.
Répondre aux tweets
Les Tweets peuvent être classés selon qu'ils sont ou non des réponses à des Tweets précédents. Un Tweet qui est une réponse à un Tweet précédent peut être considéré comme moins intéressant qu'un Tweet concernant un nouveau sujet.
Dans une description de brevet, le sujet d'un Tweet pourrait déterminer si le Tweet sera désigné pour être affiché sur un autre compte ou inclus dans les flux de messages d'autres comptes.
Lorsque vous consultez votre journal, il y a des cas où certaines des réponses d'un Tweet sont également affichées avec le Tweet principal, par exemple lorsque les Tweets de réponse sont publiés par les comptes que vous suivez. Dans la plupart des cas, les Tweets de réponse ne seront visibles que lorsque l'on clique pour afficher le fil de discussion ou lorsqu'on clique sur le Tweet pour afficher toutes les réponses.
Comptes « bénis »
C'est un concept étrange, qui, je crois, pourrait ne pas être en production.
Twitter décrit les comptes bénis comme étant identifiés dans le graphique d'une conversation particulière, où l'auteur d'origine dans une conversation serait considéré comme "béni", et parmi les réponses ultérieures à la publication d'origine, l'une des réponses auxquelles répond par la suite le le compte béni devient également "béni".
Les Tweets publiés par Blessed Accounts dans la conversation se verraient attribuer des scores de pertinence accrus.
Profil du site Web
Ce n'est pas mentionné dans les brevets de Twitter, mais cela a trop de sens dans le contexte de tous les autres facteurs qu'ils ont mentionnés pour le laisser passer.
De nombreux sites Web de contenu majeurs ont fréquemment leurs liens partagés sur Twitter, et Twitter pourrait facilement créer un score de réputation/popularité de profil de site Web qui pourrait également être pris en compte dans le classement des Tweets lorsque des liens vers du contenu sur les sites Web sont publiés.
Sites d'actualités, ressources d'information, sites de divertissement - tous ces éléments pourraient avoir des scores développés à partir des mêmes facteurs utilisés pour évaluer les comptes Twitter. Les tweets des sites Web les plus appréciés et les plus consultés pourraient se voir accorder plus de poids que les sites Web relativement inconnus et avec lesquels il y a moins d'interactions.
Twitter vérifié
Oui, si vous soupçonnez que le badge bleu à côté des noms d'utilisateur transmet un traitement préférentiel, il y a un verbiage spécifique dans l'un des brevets de Twitter qui confirme qu'ils ont au moins envisagé cela.
Étant donné que les comptes vérifiés sont souvent déjà associés à divers autres indicateurs de popularité, il n'est pas évident de savoir si ce facteur est utilisé ou non. Les Tweets publiés par un compte Vérifié peuvent se voir attribuer un score de pertinence plus élevé, ce qui leur permet d'apparaître plus souvent que les Tweets des comptes non vérifiés.
Voici la description du brevet :
"Dans un ou plusieurs modes de réalisation de l'invention, le module de conversation (120) comprend une fonctionnalité pour appliquer un filtre de pertinence pour augmenter les scores de pertinence d'un ou plusieurs comptes auteurs du graphe de conversation qui sont identifiés dans une liste blanche de comptes vérifiés. Par exemple, la liste blanche des comptes vérifiés peut être une liste de comptes qui sont des comptes de haut niveau susceptibles d'être usurpés. Dans cet exemple, les comptes de célébrités et d'affaires seraient vérifiés par la plate-forme de messagerie (100) afin d'informer les utilisateurs de la plate-forme de messagerie (100) que les comptes sont authentiques. Dans un ou plusieurs modes de réalisation de l'invention, le module de conversation (120) est configuré pour augmenter les scores de pertinence des comptes auteurs vérifiés d'un montant/pourcentage prédéfini.
A tendance
Il s'agit d'un indicateur binaire indiquant si le Tweet a été identifié comme contenant un sujet qui était à la mode au moment où le message a été diffusé.
Sexe, orientation sexuelle et centres d'intérêt détectés par l'application
Twitter peut être en mesure d'utiliser les informations sur l'appareil mobile d'un titulaire de compte pour déduire le sexe du titulaire du compte ou déduire des intérêts dans des sujets tels que les actualités, les sports, la musculation et d'autres sujets.
Certains appareils mobiles fournissent des informations sur d'autres applications chargées sur le téléphone dans le but de diagnostiquer des conflits potentiels de programmation d'applications. Ainsi, certains Tweets correspondant à votre sexe, votre orientation sexuelle et vos intérêts d'actualité pourraient se voir attribuer plus de points d'intérêt simplement en fonction des inférences faites à partir des applications de votre téléphone. (Voir : https://screenrant.com/android-apps-collecting-app-data/ )
Et plus de facteurs de classement
Twitter indique que :
"Notre liste de caractéristiques considérées et leurs interactions variées ne cesse de s'allonger, informant nos modèles de modèles de comportement de plus en plus nuancés."
Donc, cette liste de facteurs est probablement une sous-représentation des facteurs qu'ils peuvent utiliser, et leur liste peut s'allonger.
Imaginez également qu'une combinaison personnalisée de certains des facteurs ci-dessus puisse être appliquée en tant que modèles pour les Tweets associés à des sujets particuliers, ce qui confère une grande complexité potentielle aux classements via des méthodes d'apprentissage automatique. (Encore une fois, l'apprentissage automatique appliqué pour créer des modèles de pondération de classement personnalisés pour des requêtes ou des sujets particuliers est très similaire aux méthodes qui sont probablement utilisées avec Google.)
Twitter a déclaré que la notation des Tweets se produit chaque fois que l'on visite Twitter et chaque fois que l'on actualise sa chronologie. Compte tenu de certains des facteurs complexes impliqués, c'est très rapide !
Twitter utilise des tests A/B des pondérations des facteurs de classement et d'autres modifications d'algorithmes, et détermine si un changement proposé est une amélioration en fonction de l'engagement et du temps de visionnage/d'interaction avec un Tweet. Ceci est utilisé pour former des modèles de classement.
L'implication de l'apprentissage automatique dans ce processus suggère que des modèles de classement pourraient être produits pour de nombreux scénarios spécifiques, et potentiellement spécifiques à des sujets particuliers et à des types d'utilisateurs. Une fois développé, le modèle peut être testé et s'il améliore l'engagement, il peut être rapidement déployé auprès de tous les utilisateurs.
Comment les spécialistes du marketing peuvent utiliser ces informations
De nombreuses déductions peuvent être tirées de la liste des facteurs de classement potentiels et peuvent être utilisées par les spécialistes du marketing afin d'améliorer leurs tactiques de tweet.
Un compte Twitter qui ne publie que des annonces sur ses produits et des informations promotionnelles sur son entreprise n'aura probablement pas autant de visibilité que des comptes plus interactifs avec leur communauté, car les interactions produisent plus de signaux de classement et d'avantages potentiels.
Les experts des médias sociaux recommandent depuis longtemps une approche consistant à mélanger les types de messages plutôt que de simplement publier une promotion autoréférentielle - ces stratégies incluent "La règle des tiers", "La règle des 80/20", et d'autres.
Les facteurs de classement de Twitter soutiennent probablement ces théories, car susciter davantage d'interactions avec le nombre d'utilisateurs de Twitter est plus susceptible d'augmenter la visibilité d'un compte.
Par exemple, un grand compte d'entreprise avec de nombreux abonnés pourrait publier un sondage intéressant pour obtenir des conseils sur les fonctionnalités à ajouter à son produit. Les votes et les commentaires publiés par les utilisateurs feront en sorte que les répondants seront beaucoup plus susceptibles de voir la prochaine publication de l'entreprise en raison des interactions récentes, et que la prochaine publication pourrait promouvoir ou annoncer quelque chose de nouveau. Et, les abonnés des répondants pourraient également être plus susceptibles de voir la prochaine publication de l'entreprise, puisque Twitter semble tenir compte du fait que les utilisateurs ayant des intérêts similaires peuvent être plus ouverts à voir du contenu correspondant à leurs intérêts.
En outre, les facteurs suggèrent un certain nombre d'approches potentiellement bénéfiques.
Lorsque vous publiez un Tweet faisant la promotion d'un produit ou faites une annonce, combiner quelque chose pour susciter une réponse de la part de vos abonnés pourrait facilement étendre l'exposition sur la plate-forme, car les réponses de chaque répondant à votre Tweet peuvent augmenter les chances que leurs abonnés directs voient le Tweet d'origine et leur Tweet de réponse de la connexion.
Tirer parti de l'aspect de graphe social de l'algorithme de Twitter peut aider à accroître l'intérêt de vos Tweets et peut augmenter l'exposition de vos Tweets aux autres utilisateurs.
Les facteurs de spam peuvent avoir un impact négatif sur le classement des tweets
Les algorithmes de détection de spam peuvent avoir un impact négatif sur la capacité de classement des Tweets.
D'une part, Twitter est très rapide pour suspendre les comptes qui spamment de manière flagrante, et dans les cas où cela est évident et sans équivoque, on peut s'attendre à ce que le compte soit clôturé brusquement, entraînant la disparition de tous ses Tweets des graphiques de conversation et des chronologies, et provoquant l'impossibilité d'afficher le profil du compte.
Dans d'autres cas encore où il n'est pas aussi clair qu'un compte envoie du spam, les Tweets du compte peuvent simplement être rétrogradés en appliquant des scores de poids de classement négatifs, ou les Tweets peuvent être verrouillés ou suspendus jusqu'à ce que ou si le titulaire du compte prend une mesure corrective ou vérifie leur identité.
Par exemple, un compte Twitter avec une longue histoire de bons Tweets peut brusquement commencer à publier des publicités Viagra ou des liens vers des logiciels malveillants, comme si un compte établi était piraté. Twitter peut suspendre temporairement le compte jusqu'à ce que des mesures correctives soient prises, telles que la réussite d'une vérification CAPTCHA ou la réception d'un code de vérification via un téléphone portable et la modification des mots de passe. Un autre exemple pourrait être un nouvel utilisateur qui dépasse accidentellement un certain seuil de suivi de trop de comptes dans un court laps de temps ou qui publie un peu trop fréquemment.
Twitter utilise un certain nombre de méthodes pour détecter le spam et le mettre de côté afin que les utilisateurs le voient moins.
Une grande partie de la détection automatisée repose sur la détection d'une combinaison de caractéristiques de profil de compte, de comportements de tweet de compte et de contenu trouvé dans les Tweets du compte.
Twitter a développé un certain nombre d'« empreintes digitales » de spam caractéristiques afin d'effectuer une détection rapide des modèles. Un brevet Twitter décrit comment :
"Le spam est déterminé en comparant les caractéristiques des comptes de spam identifiés et en créant un" graphique de similarité "qui peut être comparé à d'autres comptes suspectés de spam."
Les Tweets identifiés comme contenant potentiellement du spam peuvent être signalés par une valeur binaire telle que « oui » ou « Non », puis les Tweets signalés peuvent être filtrés hors des délais.
Il est également possible qu'il y ait une échelle de spam, calculée à partir de plusieurs facteurs, et qu'une fois qu'un Tweet ou un compte dépasse un seuil, il subit alors une rétrogradation. Je pense qu'il vaut la peine d'inclure ces mentions car les utilisateurs de Twitter peuvent ne pas comprendre les implications de l'utilisation de la plate-forme. Par exemple, la publication d'un Tweet trop agressif peut avoir un impact négatif sur les Tweets suivants d'un compte pendant un certain temps. Un comportement énervé répété pourrait aggraver le problème, comme la suppression complète du compte, sans possibilité de récupération.
J'ajouterai ici quelques facteurs qui ne sont pas spécifiquement mentionnés dans les brevets ou les articles de blog de Twitter, car Twitter ne révèle pas tous les facteurs d'identification du spam pour des raisons évidentes. Mais, certaines caractéristiques des spams et des comptes de spam semblent si évidentes que j'en ajoute quelques-unes à partir d'observations personnelles ou de sources de recherche réputées pour fournir une meilleure compréhension de ce qui peut entraîner des rétrogradations de spam.
Facteurs de spam et autres facteurs de classement négatifs
- Les Tweets contenant un message commercial posté sans relation follower/followee ou dans une relation unidirectionnelle (l'Auteur du Tweet suit le compte qu'il mentionne mais le compte destinataire ne suit pas l'Auteur), mais n'ayant pas eu d'interactions antérieures, commencent à apparaître méfiant. Si cela est fait plusieurs fois avec un texte similaire ou identique, il ne faudra pas longtemps pour que cela soit considéré comme une activité de spam, en particulier pour les nouveaux comptes.
- Âge du compte - où l'âge indique que le compte a été créé très récemment. (Les recherches récentes de SparkToro sur le spam Twitter suggèrent que l'âge du compte est de 90 jours ou moins.)
- Drapeau NSFW du compte - le compte a un drapeau indiquant qu'il a été identifié pour être lié à des sites Web documentés dans une liste noire de sites potentiellement offensants (tels que des sites contenant de la pornographie, du matériel explicite, du gore, etc.).
- Drapeau offensant – le Tweet a été identifié comme contenant un ou plusieurs termes d'une liste noire de termes offensants.
- Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
- Account Posting Frequent Copyright Infringement
- Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
- Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
- Tweets containing offensive language might be allowed to erode their interestingness score.
- Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
- Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
- Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
- Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
- Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
- Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
- High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
- CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
- Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
- Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
- Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
- Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
- Tweets Containing Affiliate Links – self explanatory.
- Frequent Requests to Befriend Users in a Short Time Frame
- Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
- Accounts that Tweet Only URLs
- Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
- Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
- Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
- Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
- Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
- Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
- Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
- Profile Descriptions Matching Spammer Keywords/Patterns
- Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
- Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.
Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.
Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.
The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.
En conclusion
Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.
The AI components include:
- Neural networks.
- Natural language processing.
- Circumflex calculation.
- Markov modeling.
- Logistic regression.
- Decision tree analysis.
- Random forest analysis.
- Supervised and unsupervised machine learning.
As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.
Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.
Author's disclosure
I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.
As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.
In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.
I have not disclosed any information covered by the protective order in this article from my recently-resolved case.
I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:
- Identifier les messages pertinents dans un graphe de conversation
- Fourniture de contenu pour diffusion par une plateforme de messagerie
- Promouvoir du contenu dans une plateforme de messagerie en temps réel
- Système et procédé pour déterminer la pertinence d'un contenu social
- Systèmes et procédés pour établir ou maintenir un réseau social de confiance personnalisé
- Affichage des messages pertinents d'un graphe de conversation
- Infrastructure de recherche
- Filtrage de la visibilité
- Hiérarchisation des messages au sein d'un réseau de messagerie
- Générateur de graphiques d'application
- Utilisation du Deep Learning à grande échelle dans les fils d'actualité de Twitter
- Systèmes et méthodes anti-spam à plusieurs niveaux
- Détecter les interactions scénarisées ou anormales avec la plate-forme de médias sociaux
- Comment Twitter lutte contre le spam et l'automatisation malveillante
- Rétrospective des comptes suspendus : une analyse du spam sur Twitter
- Analyse Twitter : 19,42 % des comptes actifs sont des faux ou des spams
Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.

