Fattori di ranking dell'algoritmo di Twitter: una guida definitiva

Pubblicato: 2022-07-01

I brevetti di Twitter e altre pubblicazioni rivelano aspetti probabili di come i tweet vengono promossi nei feed della sequenza temporale degli utenti.

Alcuni dei fattori di ranking della sequenza temporale di Twitter sono molto sorprendenti e modificare il tuo approccio ai Tweet può aiutarti a ottenere una maggiore visibilità dei tuoi Tweet.

Sulla base di una serie di brevetti chiave e di altre fonti, ho delineato una serie di probabili fattori di ranking per l'algoritmo di Twitter nel presente documento.

La cronologia di Twitter

Twitter ha iniziato a utilizzare una sequenza temporale basata su algoritmi nel 2016, quando è passato da quello che era un feed puramente cronologico di Tweet da tutti gli account seguiti. La modifica ha classificato le tempistiche degli utenti per consentire loro di vedere "prima i migliori Tweet". Da allora Twitter ha sperimentato varianti di questo fino ad oggi.

Un algoritmo basato sui feed per i social media non è insolito. Facebook e altre piattaforme di social media hanno fatto lo stesso.

Le ragioni di questa modifica a un mix algoritmico di Tweet sulla sequenza temporale sono abbastanza chiare. Una sequenza temporale puramente personale e cronologica composta solo dagli account che si sono seguiti è molto isolata e quindi limitata – mentre l'introduzione di post da account al di là delle proprie connessioni dirette ha il potenziale per aumentare il tempo che si trascorre sulla piattaforma, il che a sua volta aumenta la viscosità complessiva, che a sua volta aumenta il valore del servizio per inserzionisti e partner di dati.

Varie classificazioni di interesse degli utenti e argomenti di interesse associati ai loro account e tweet consentono inoltre il potenziale per il targeting degli annunci in base ai dati demografici degli utenti e agli argomenti dei contenuti.

Gli utenti esperti di Twitter potrebbero aver sviluppato alcune intuizioni su vari fattori Tweet che possono comportare una maggiore visibilità all'interno dell'algoritmo.

Un promemoria sui brevetti

Le società registrano continuamente brevetti per invenzioni che in realtà non utilizzano in servizio dal vivo. Quando ho lavorato in Verizon, ho scritto personalmente una serie di bozze di brevetto per varie invenzioni che io e i miei colleghi abbiamo sviluppato nel corso del nostro lavoro, comprese cose che alla fine non abbiamo utilizzato nella produzione.

Quindi, il fatto che Twitter abbia brevetti che menzionano idee su come potrebbero funzionare le cose non garantisce affatto che le cose funzionino così .

Inoltre, i brevetti contengono tipicamente molteplici forme di realizzazione, che sono essenzialmente vari modi in cui un'invenzione potrebbe essere implementata: i brevetti tentano di descrivere gli elementi chiave di un'invenzione nel modo più ampio possibile per rivendicare qualsiasi possibile uso che potrebbe esserle attribuito.

Infine, proprio come con il famoso brevetto dell'algoritmo PageRank che è stato alla base del motore di ricerca di Google, nei casi in cui Twitter ha utilizzato l'incarnazione di uno dei loro brevetti, è molto probabile che abbiano modificato e perfezionato le semplici e ampie invenzioni descritte, e continuerà a farlo.

Nonostante tutta questa tipica vaghezza e incertezza, ho trovato una serie di concetti molto interessanti nelle descrizioni dei brevetti di Twitter, molti dei quali molto probabilmente saranno incorporati nel loro sistema.

Twitter e Deep Learning

Un ulteriore avvertimento prima di procedere riguarda il modo in cui l'algoritmo della sequenza temporale di Twitter ha incorporato il Deep Learning nel suo DNA, insieme a vari livelli di supervisione umana, rendendolo una bestia in frequente, se non costantemente, in evoluzione personale.

Ciò significa che sia i grandi cambiamenti che i piccoli cambiamenti incrementali possono e si verificheranno nel modo in cui esegue il ranking dei contenuti. Inoltre, questo approccio di apprendimento automatico può portare a condizioni in cui gli ingegneri umani di Twitter potrebbero non sapere direttamente perché alcuni contenuti vengono visualizzati o superare altri contenuti a causa dell'astrazione dei modelli di ranking prodotti, in modo simile a quanto ho descritto quando ho scritto sui modelli prodotti da Google classifica della qualità attraverso l'apprendimento automatico.

Nonostante la complessità e la sofisticatezza del funzionamento dell'algoritmo di Twitter, la comprensione dei fattori che probabilmente entrano nella scatola nera può ancora rivelare ciò che influenza le classifiche.

La sequenza temporale originale di Twitter era semplicemente composta da tutti i Tweet degli account seguiti dall'ultima visita, che sono stati raccolti e visualizzati in ordine cronologico inverso con i Tweet più recenti mostrati per primi e ogni Tweet precedente mostrato uno dopo l'altro mentre scorreva verso il basso.

L'attuale algoritmo è ancora in gran parte composto dallo stesso elenco cronologico inverso di Tweet, ma Twitter esegue una riclassificazione per cercare di visualizzare i Tweet più interessanti prima di tutto dai Tweet recenti.

In background, ai Tweet è stato assegnato un punteggio di ranking da un modello di pertinenza che prevede quanto è probabile che ogni Tweet sia interessante per te e questo valore di punteggio determina l'ordine di ranking.

I Tweet con i punteggi più alti vengono mostrati per primi nell'elenco della sequenza temporale, mentre il resto dei Tweet più recenti viene mostrato più in basso. È da notare che ora nella tua sequenza temporale ci sono anche i Tweet di account che non stai seguendo, così come alcuni Tweet pubblicitari.

Grafico di connessione di Twitter

Prima di tutto, uno degli aspetti più influenti della sequenza temporale di Twitter è il modo in cui Twitter sta ora visualizzando i Tweet basati non solo sulle tue connessioni dirette a questo punto, ma essenzialmente su qual è il tuo grafico sociale unico, a cui Twitter si riferisce nei brevetti come " grafico di connessione”.

Il grafico di connessione rappresenta i conti come nodi e le relazioni come linee ("bordi") che collegano uno o più nodi. Una relazione può fare riferimento ad associazioni tra account Twitter.

Ad esempio, seguire, iscriversi (come tramite il programma Super Follows di Twitter o, potenzialmente, per la funzione di abbonamento annunciata di Twitter per query di parole chiave), gradire, taggare, ecc.: tutto questo crea relazioni.

Le relazioni nel proprio grafico di connessione possono essere unidirezionali (ad esempio, ti seguo) o bidirezionali (ad esempio, ci seguiamo entrambi). Se ti seguo, ma tu non mi segui, avrei una maggiore aspettativa di vedere i tuoi Tweet e Retweet apparire nella mia timeline, ma non ti aspetteresti necessariamente di vedere i miei.

Basandoti semplicemente sul grafico delle connessioni, è probabile che tu veda Tweet e Retweet di coloro che hai seguito, oltre ai Tweet a cui le tue connessioni hanno apprezzato o hanno risposto.

L'algoritmo di Twitter ha ampliato i Tweet che potresti vedere oltre agli account con cui hai interagito direttamente. I Tweet che potresti vedere nella tua cronologia ora includono anche i Tweet di altri che stanno postando su argomenti che hai seguito, Tweet simili in qualche modo ai Tweet che hai precedentemente apprezzato e Tweet basati su argomenti che l'algoritmo prevede che potrebbero piacerti.

Anche tra questi tipi estesi di Tweet che potresti ricevere, si applica il sistema di classificazione dell'algoritmo: non stai ricevendo tutti i Tweet corrispondenti ai tuoi argomenti, Mi piace e interessi previsti, stai ricevendo un elenco curato tramite l'algoritmo di Twitter.

Classifica di interesse

Nel DNA di numerosi brevetti e algoritmi di Twitter per classificare i Tweet c'è il concetto di "interesse".

Ciò è stato molto probabilmente ispirato da un brevetto concesso a Yahoo nel 2006 chiamato "Classificazione di interesse degli oggetti multimediali", che descriveva i metodi di classificazione utilizzati nell'algoritmo di Flickr (il servizio di condivisione di foto sui social media dominante che è stato successivamente eclissato da Instagram e Pinterest).

Quell'algoritmo precedente per Flickr ha molte somiglianze con i brevetti contemporanei di Twitter. Utilizzava fattori simili e persino identici per calcolare l'interesse. Questi includevano:

  • Informazioni sulla posizione.
  • Metadati del contenuto.
  • Cronologia.
  • Modelli di accesso degli utenti.
  • Segnali di interesse (come tag, commenti, preferiti).

Si potrebbe facilmente descrivere l'algoritmo di Twitter come prendendo l'algoritmo di interesse di Flickr, espandendo alcuni dei fattori coinvolti, calcolandolo attraverso un processo di apprendimento automatico più sofisticato, interpretando il contenuto basato sull'elaborazione del linguaggio naturale (NLP) e incorporando una serie di variazioni aggiuntive per consentire la rapidità di presentazione quasi in tempo reale per un numero gigantesco di utenti contemporaneamente.

Classifica Twitter e spam

È anche interessante concentrare alcuni sui metodi utilizzati da Twitter per rilevare lo spam, gli account degli utenti di spam e per ridurre o eliminare i Tweet di spam dalla visualizzazione.

Anche la polizia per disinformazione, altri contenuti che violano le politiche e molestie è intensa, ma ciò non necessariamente converge tanto con le valutazioni del ranking.

Alcuni dei brevetti di rilevamento dello spam sono interessanti perché vedo utenti che spesso si incagliano nei processi di soppressione dello spam di Twitter in modo del tutto involontario e ci sono un certo numero di cose che si possono fare che si traducono in sforzi di sandbagging per promuovere e interagire con il pubblico di Twitter. Twitter ha dovuto creare processi di watchdog aggressivi per controllare e rimuovere lo spam, e anche gli utenti più importanti possono entrare in conflitto con questi processi di tanto in tanto.

Pertanto, la comprensione dei fattori di spam di Twitter può essere importante in quanto possono far sì che i propri Tweet ottengano detrazioni dall'interesse che altrimenti avrebbero e questa perdita nei punteggi di pertinenza può ridurre la visibilità e il potere di distribuzione dei tuoi Tweet.

Fattori di ranking di Twitter

Quindi, quali sono i fattori menzionati nei brevetti di Twitter per la valutazione dell'"interesse" e quali influenzano il modo in cui Twitter ottiene i punteggi dei Tweet per le classifiche?

Attualità della pubblicazione del Tweet

Con i più recenti generalmente molto più preferiti. A parte parole chiave specifiche e altri tipi di ricerche, la maggior parte dei Tweet risalgono alle ultime ore. Potrebbero essere inclusi anche alcuni Tweet "nel caso te lo fossi perso", che sembrano variare principalmente nell'ultimo giorno o due.

Immagini o video

In generale, in generale, Google e altre piattaforme hanno indicato che gli utenti tendono a preferire di più immagini e video, quindi un Tweet contenente entrambi potrebbe ottenere un punteggio più alto.

Twitter cita specificamente le schede immagine e video, che si riferiscono a siti Web che hanno implementato Twitter Card, che consentono a Twitter di visualizzare facilmente frammenti di anteprima più ricchi quando i Tweet contengono collegamenti a pagine Web con il markup della scheda.

I Tweet con collegamenti che mostrano immagini e video sono generalmente più coinvolgenti per gli utenti, ma potrebbe esserci un ulteriore vantaggio per i Tweet che si collegano alle pagine con il markup della scheda per visualizzare il contenuto della scheda

Interazioni con il Tweet

Twitter cita Mi piace e Retweet, ma anche qui potrebbero essere applicate metriche aggiuntive relative al Tweet. Le interazioni includono:

  • Piace
  • Retweet
  • Fa clic sui collegamenti che potrebbero essere nel Tweet
  • Clic sugli hashtag nel Tweet
  • Fa clic sugli account Twitter menzionati nel Tweet
  • I dettagli si espandono: fai clic per visualizzare i dettagli sul Tweet, ad esempio per visualizzare chi ha apprezzato o ritwittato.
  • Nuovi follower: quante persone sono passate con il mouse sopra il nome utente e quindi hanno fatto clic per seguire l'account.
  • Visite al profilo: quante persone hanno fatto clic sull'avatar o sul nome utente per visitare il profilo del poster.
  • Condivisioni: quante volte il Tweet è stato condiviso tramite il pulsante di condivisione.
  • Risposte al Tweet

Impressioni

Sebbene la maggior parte delle impressioni provenga dalla visualizzazione del Tweet nelle sequenze temporali, alcune impressioni vengono derivate quando i Tweet vengono condivisi tramite l'incorporamento nelle pagine web. È possibile che questi numeri di impressioni influiscano anche sul punteggio di interesse per il Tweet.

Probabilità di interazioni

Un brevetto Twitter descrive il calcolo di un punteggio per un Tweet che rappresenta la probabilità che i follower dell'autore del Tweet nel sistema di messaggistica sociale interagiscano con il messaggio, il punteggio è basato sulla deviazione calcolata del livello di interazione tra il livello di interazione osservato dei follower di l'Autore e il livello di interazione atteso dei Follower.

Lunghezza del Tweet

Un tipo di classificazione è la lunghezza del testo contenuto nel Tweet, che può essere classificata come un valore numerico (es. 103 caratteri), oppure può essere designata come una di poche categorie (es. corta, media o lunga) .

In base agli argomenti coinvolti in un Tweet, potrebbe essere considerato più o meno interessante: per alcuni argomenti, il breve potrebbe essere più vantaggioso e per altri argomenti, la lunghezza media o lunga potrebbe rendere il Tweet più interessante.

Precedenti interazioni con l'autore

Le interazioni passate con l'autore di un Tweet aumenteranno la probabilità (e il punteggio di ranking nella propria sequenza temporale) che si vedano altri Tweet dello stesso autore.

Queste metriche di interazione del grafico sociale possono includere il punteggio in base all'origine della relazione.

Quindi, una storia passata di risposta, like o retweet ai Tweet di un autore, anche se non si segue quell'account, può aumentare la probabilità che si vedano i suoi ultimi Tweet.

È probabile che anche le recenti interazioni con l'autore di un Tweet possano incidere su questo aspetto, quindi se non interagisci con uno dei suoi Tweet da molto tempo, la potenziale visibilità dei suoi nuovi Tweet potrebbe diminuire per te.

Nel contesto dell'algoritmo, "autore" e "account" sono essenzialmente usati per significare la stessa cosa, quindi i Tweet di un account aziendale sono trattati allo stesso modo dei Tweet di un individuo.

Valutazione della credibilità dell'autore

Questo punteggio può essere calcolato dalle relazioni di un autore e dalle interazioni con altri utenti.

L'esempio fornito nel brevetto è che un autore seguito da più account di alto profilo o prolifici avrebbe un punteggio di credibilità elevato.

Sebbene un valore di valutazione citato sia "basso", "medio" e "alto", il brevetto suggerisce anche una scala di valori di valutazione da 1 a 10 e può includere un fattore qualitativo e/o quantitativo.

Immagino che un intervallo come 1 a 10 sia molto più probabile. Sembra probabile che alcuni dei valori di valutazione dello spam possano essere utilizzati per sottrarre da una valutazione di credibilità dell'autore. Maggiori informazioni sui potenziali fattori di valutazione dello spam nell'ultima parte di questo articolo.

Rilevanza dell'autore

È possibile che gli autori ritenuti più rilevanti per un particolare argomento abbiano un valore di Rilevanza autore più elevato. Inoltre, le menzioni di un Autore possono renderli più rilevanti nel contesto dei Tweet che lo menzionano.

I brevetti parlano anche di associare gli autori agli argomenti, quindi è possibile che gli autori che twittano frequentemente su argomenti specifici, insieme a buoni tassi di coinvolgimento, possano essere considerati di maggiore rilevanza quando i loro Tweet riguardano quell'argomento.

Metriche dell'autore

I Tweet possono essere classificati in base alle proprietà dell'Autore. Queste metriche possono influenzare l'interesse relativo dei messaggi dell'autore. Tali metriche dell'autore includono:

  • Luogo dell'autore (come città o paese)
  • Età (basata sulla data di nascita che può essere indicata nei dettagli dell'account)
  • Numero di follower
  • Numero di conti seguiti dall'autore
  • Rapporto tra numero di follower e account seguiti , poiché un numero maggiore di follower rispetto a seguito trasmette maggiore popolarità insieme al numero grezzo di follower. Un rapporto più vicino a 1 indicherebbe un quid pro quo seguendo la filosofia da parte dell'Autore, rendendo meno possibile dedurre la popolarità e dando un'apparenza di popolarità artificiale.
  • Numero di Tweet pubblicati dall'autore per periodo di tempo (ad esempio: al giorno o alla settimana).
  • Age of the Account (mesi dall'apertura dell'account, ad esempio) – con account che sono stati creati molto di recente ha un peso molto inferiore.
  • Fiducia.

Temi

I tweet vengono classificati in base agli argomenti che coinvolgono. Ci sono alcuni algoritmi molto sofisticati coinvolti nella classificazione dei Tweet.

Gli utenti di Twitter hanno spesso selezionato argomenti da associare ai loro account e ovviamente ti verranno mostrati i Tweet popolari dagli argomenti che hai selezionato. Tuttavia, Twitter crea anche automaticamente argomenti basati sulle parole chiave trovate nei Tweet.

Sulla base delle tue interazioni con i Tweet e gli account che segui, Twitter prevede anche argomenti che potrebbero interessarti e ti mostra alcuni Tweet di tali argomenti nonostante tu non ti sia iscritto formalmente agli argomenti.

Classificazione delle frasi

Il sistema di Twitter è molto complesso e consente di applicare potenzialmente modelli di ranking personalizzati ai Tweet per argomenti particolari e quando sono presenti frasi particolari.

Twitter ha un ampio staff che lavora per sviluppare modelli per particolari "viaggi del cliente", e questo sembrerebbe coincidere con le descrizioni dei brevetti su come gli editori potrebbero stabilire regole sui post orientati all'argomento e parole chiave o frasi nei post.

Ad esempio, i post contenenti testo su "assumere ora" o "saranno in TV" potrebbero essere considerati noiosi per un argomento, mentre frasi come "fresco", "in vendita" o "solo oggi" potrebbero avere un peso maggiore in quanto potrebbe essere più interessante.

Questo potrebbe essere abbastanza difficile da soddisfare, poiché esiste un vasto campo di potenziali argomenti e ponderazioni personalizzate che potrebbero essere applicate.

Un recente annuncio di lavoro su Twitter per uno Staff Product Designer, Customer Journey, ha descritto come la posizione potrebbe aiutare:

“Che tu stia cercando fanart di Ariana Grande, #erpetologia o unicycling estremo, sta accadendo tutto su Twitter. Il nostro team è responsabile di aiutare i nuovi membri a navigare nella vasta gamma di conversazioni pubbliche che si svolgono su Twitter e a trovare rapidamente un senso di appartenenza…”

"Raccogli approfondimenti dai dati e dalla ricerca qualitativa, sviluppa ipotesi, abbozza soluzioni con prototipi e testa idee con il nostro team di ricerca e negli esperimenti".

"Modelli di interazione dettagliati del documento e specifiche dell'interfaccia utente".

"Esperienza di progettazione per l'apprendimento automatico, ricche tassonomie e/o grafici di interesse".

Questa descrizione suona molto simile a quanto descritto nel brevetto di Twitter per "Sistema e metodo per determinare la pertinenza dei contenuti sociali" dove:

"Gli editori potrebbero stabilire regole per classificare alcune frasi come più o meno interessanti..."

“...un editore può decidere che alcune frasi e attributi sono interessanti in tutti i contenuti, indipendentemente dalla categoria del luogo in cui sono stati creati i contenuti. Ad esempio, la frase "in vendita" o "evento" può essere interessante in tutti i casi e può essere applicato un peso positivo".

Un brevetto descrive come ai Tweet che hanno rilevato un linguaggio commerciale potrebbe essere assegnato un punteggio inferiore rispetto ai Tweet che non avevano un linguaggio commerciale. (Al contrario, tali pesi potrebbero essere capovolti se l'utente stava conducendo ricerche che indicano un interesse ad acquistare qualcosa, in modo che i Tweet contenenti un linguaggio commerciale potessero ricevere un peso maggiore.)

Ora del giorno

L'ora del giorno può essere utilizzata per influire sulla pertinenza. Ad esempio, una regola potrebbe essere implementata per dare più peso ai Tweet che menzionano "Caffè" tra le 8:00 e le 10:00 e/o ai Tweet pubblicati dai coffee shop.

Posizioni

I brevetti descrivono come i "riferimenti di luoghi" nei Tweet potrebbero invocare un peso maggiore per i Tweet su un luogo e/o per gli account associati al riferimento del luogo rispetto ad altri account che si limitano a menzionare il luogo. Anche la vicinanza geografica tra la posizione del dispositivo di un utente e la posizione associata agli elementi di contenuto (il testo del Tweet, l'immagine, il video e/o l'autore) può aumentare o diminuire la potenziale pertinenza.

Lingua

La lingua del Tweet può essere classificata (es. inglese, francese, ecc.).

La lingua può essere determinata automaticamente utilizzando vari strumenti di valutazione linguistica automatizzati.

Un Tweet in una determinata lingua sarebbe di maggiore interesse per i parlanti della lingua e di minore interesse per gli altri.

Rispondi ai Tweet

I Tweet possono essere classificati a seconda che si tratti di risposte a Tweet precedenti. Un Tweet che è una risposta a un Tweet precedente può essere considerato meno interessante di un Tweet relativo a un nuovo argomento.

Nella descrizione di un brevetto, l'argomento di un Tweet potrebbe determinare se il Tweet sarà designato per essere visualizzato su un altro account o incluso nei flussi di messaggi di altri account.

Quando visualizzi la tua cronologia, ci sono casi in cui alcune delle risposte di un Tweet vengono visualizzate anche con il Tweet principale, ad esempio quando i Tweet di risposta vengono pubblicati dagli account che segui. Nella maggior parte dei casi, i Tweet di risposta saranno visibili solo quando si fa clic per visualizzare il thread o si fa clic sul Tweet per visualizzare tutte le risposte.

Conti “benedetti”.

Questo è un concetto strano, che credo potrebbe non essere in produzione.

Twitter descrive gli Account Benedetto come identificati all'interno del grafico di una particolare conversazione, in cui l'autore originale in una conversazione sarebbe considerato "benedetto", e dalle successive risposte al post originale, una qualsiasi delle Risposte a cui ha successivamente risposto anche il racconto benedetto diventa “benedetto”.

Ai Tweet pubblicati da Blessed Accounts nella conversazione verrebbero assegnati punteggi di pertinenza maggiori.

Profilo del sito web

Questo non è menzionato nei brevetti di Twitter, ma ha troppo senso nel contesto di tutti gli altri fattori che hanno menzionato per ignorarlo.

Molti dei principali siti Web di contenuti hanno spesso i loro collegamenti condivisi su Twitter e Twitter potrebbe facilmente creare un punteggio di reputazione/popolarità del profilo del sito Web che potrebbe anche tenere conto delle classifiche dei Tweet quando vengono pubblicati collegamenti ai contenuti sui siti Web.

Siti di notizie, risorse informative, siti di intrattenimento: tutti questi potrebbero avere punteggi sviluppati dagli stessi fattori utilizzati per valutare gli account Twitter. Ai tweet di siti Web più apprezzati e più coinvolti potrebbe essere assegnato un peso maggiore rispetto a siti Web relativamente sconosciuti e meno interagiti.

Twitter verificato

Sì, se sospettavi che il badge blu accanto ai nomi utente conferisca un trattamento preferenziale, c'è una verbosità specifica in uno dei brevetti di Twitter che conferma che hanno almeno considerato questo.

Poiché gli account verificati spesso hanno già vari altri indicatori di popolarità ad essi associati, non è subito chiaro se questo fattore sia in uso o meno. Ai Tweet pubblicati da un account verificato può essere assegnato un punteggio di pertinenza più elevato, consentendo loro di apparire più dei Tweet degli account non verificati.

Ecco la descrizione del brevetto:

"In una o più forme di realizzazione dell'invenzione, il modulo di conversazione (120) include funzionalità per applicare un filtro di pertinenza per aumentare i punteggi di pertinenza di uno o più account di creazione del grafico di conversazione che sono identificati in una whitelist di account verificati. Ad esempio, la whitelist degli account verificati può essere un elenco di account di alto profilo suscettibili di rappresentazione. In questo esempio, gli account di celebrità e business verrebbero verificati dalla piattaforma di messaggistica (100) per notificare agli utenti della piattaforma di messaggistica (100) che gli account sono autentici. In una o più forme di realizzazione dell'invenzione, il modulo di conversazione (120) è configurato per aumentare i punteggi di pertinenza degli account di creazione verificati di un importo/percentuale predefinito.

Ha tendenza

Questo è un flag binario che indica se il Tweet è stato identificato come contenente un argomento di tendenza al momento della trasmissione del messaggio.

Sesso, orientamento sessuale e interessi rilevati dall'app

Twitter potrebbe essere in grado di utilizzare le informazioni del dispositivo mobile del titolare di un account per dedurre il sesso del titolare dell'account o dedurre interessi in argomenti come notizie, sport, allenamento con i pesi e altri argomenti.

Alcuni dispositivi mobili forniscono informazioni su altre app caricate sul telefono allo scopo di diagnosticare potenziali conflitti di programmazione delle applicazioni. Pertanto, ad alcuni Tweet corrispondenti al tuo genere, orientamento sessuale e interessi di attualità potrebbero essere assegnati punti più interessanti semplicemente in base alle inferenze fatte dalle app del tuo telefono. (Vedi: https://screenrant.com/android-apps-collecting-app-data/ )

E più fattori di ranking

Twitter afferma che:

"Il nostro elenco di caratteristiche considerate e le loro varie interazioni continua a crescere, informando i nostri modelli di modelli di comportamento sempre più sfumati".

Quindi questo elenco di fattori è probabilmente una sottorappresentazione dei fattori che potrebbero utilizzare e il loro elenco potrebbe espandersi.

Immagina inoltre che una combinazione personalizzata di alcuni dei suddetti fattori possa essere applicata come modelli per i Tweet associati a particolari argomenti, conferendo una grande potenziale complessità alle classifiche attraverso metodi di apprendimento automatico. (Ancora una volta, l'apprendimento automatico applicato per creare modelli di ponderazione del ranking personalizzati per query o argomenti particolari è molto simile ai metodi che sono probabilmente in uso con Google.)

Twitter ha affermato che il punteggio dei Tweet avviene ogni volta che si visita Twitter e ogni volta che si aggiorna la propria sequenza temporale. Considerando alcuni dei complessi fattori coinvolti, è molto veloce!

Twitter utilizza il test A/B delle ponderazioni dei fattori di ranking e altre alterazioni dell'algoritmo e determina se una modifica proposta è un miglioramento basato sul coinvolgimento e sul tempo di visualizzazione/interazione con un Tweet. Questo è usato per addestrare i modelli di classifica.

Il coinvolgimento dell'apprendimento automatico in questo processo suggerisce che potrebbero essere prodotti modelli di classificazione per molti scenari specifici e potenzialmente specifici per argomenti e tipi di utenti particolari. Una volta sviluppato, il modello può essere testato e, se migliora il coinvolgimento, può essere distribuito rapidamente a tutti gli utenti.

Come gli esperti di marketing possono utilizzare queste informazioni

Ci sono molte inferenze che possono essere tratte dall'elenco dei potenziali fattori di ranking e che possono essere utilizzate dai marketer per migliorare le loro tattiche di Tweeting.

Un account Twitter che pubblica solo annunci sui suoi prodotti e informazioni promozionali sulla sua azienda probabilmente non avrà la stessa visibilità degli account che sono più interattivi con la loro comunità, perché le interazioni producono più segnali di ranking e potenziali vantaggi.

Gli esperti di social media raccomandano da tempo un approccio che combina tipi di post piuttosto che pubblicare semplicemente promozioni autoreferenziali: queste strategie includono "La regola dei terzi", "La regola 80/20" e altre.

I fattori di ranking di Twitter probabilmente supportano queste teorie, poiché è più probabile che suscitare più interazioni con un numero di utenti di Twitter aumenti la visibilità di un account.

Ad esempio, un account aziendale di grandi dimensioni con molti follower potrebbe pubblicare un sondaggio interessante per ottenere consigli su quali funzionalità aggiungere al proprio prodotto. I voti e i commenti pubblicati dagli utenti faranno in modo che gli intervistati avranno molte più probabilità di vedere il prossimo post dell'azienda a causa delle recenti interazioni e che il prossimo post potrebbe promuovere o annunciare qualcosa di nuovo. Inoltre, i follower degli intervistati potrebbero anche essere più propensi a vedere il prossimo post dell'azienda, dal momento che Twitter sembra tenere conto del fatto che gli utenti con interessi simili potrebbero essere più aperti a vedere contenuti corrispondenti ai loro interessi.

Inoltre, i fattori suggeriscono una serie di approcci potenzialmente vantaggiosi.

Quando pubblichi un Tweet che promuove un prodotto o fai un annuncio, combinare qualcosa per suscitare una risposta dai propri follower potrebbe facilmente espandere l'esposizione sulla piattaforma poiché le risposte di ciascun intervistato al tuo Tweet possono aumentare le probabilità che i loro follower diretti possano vedere il Tweet originale e il loro Tweet di risposta della connessione.

Sfruttare l'aspetto del grafico sociale dell'algoritmo di Twitter può aiutare ad aumentare l'interesse dei tuoi Tweet e può aumentare l'esposizione dei tuoi Tweet per altri utenti.

I fattori di spam possono influire negativamente sulle classifiche dei tweet

Gli algoritmi di rilevamento dello spam possono influire negativamente sulla capacità di posizionamento dei Tweet.

Per prima cosa, Twitter è molto veloce nel sospendere gli account che sono palesemente spam e, nei casi in cui è ovvio e inequivocabile, ci si può aspettare che l'account venga chiuso bruscamente, facendo scomparire tutti i suoi Tweet dai grafici delle conversazioni e dalle sequenze temporali, e facendo in modo che il profilo dell'account non sia più disponibile per la visualizzazione.

In altri casi ancora in cui non è così chiaro se un account è spam, i Tweet dell'account potrebbero essere semplicemente retrocessi dall'applicazione di punteggi di ponderazione del ranking negativi, oppure i Tweet potrebbero essere bloccati o sospesi fino a quando o se il titolare dell'account non intraprende un'azione correttiva o ne verifica l'identità.

Ad esempio, un account Twitter con una lunga storia di buoni Tweet potrebbe iniziare bruscamente a pubblicare annunci sul Viagra o collegamenti a malware, ad esempio se un account stabilito venisse violato. Twitter potrebbe sospendere temporaneamente l'account fino a quando non vengono intraprese azioni correttive, come il superamento di una verifica CAPTCHA o la ricezione di un codice di verifica tramite cellulare e la modifica delle password. Un altro esempio potrebbe essere un nuovo utente che supera accidentalmente una certa soglia di seguire troppi account in un breve lasso di tempo o di postare un po' troppo frequentemente.

Twitter utilizza una serie di metodi per rilevare lo spam e metterlo da parte in modo che gli utenti lo vedano meno.

Gran parte del rilevamento automatico si basa sul rilevamento di una combinazione di caratteristiche del profilo dell'account, comportamenti di Tweeting dell'account e contenuto trovato nei Tweet dell'account.

Twitter ha sviluppato una serie di caratteristiche "impronte digitali" di spam al fine di eseguire il rilevamento rapido dei pattern. Un brevetto Twitter descrive come:

"Lo spam viene determinato confrontando le caratteristiche degli account spam identificati e costruendo un 'grafico di somiglianza' che può essere confrontato con altri account sospettati di spam".

I tweet identificati come potenzialmente contenenti spam potrebbero essere contrassegnati con un valore binario come "sì" o "no", e quindi i tweet contrassegnati possono essere filtrati fuori dalla sequenza temporale.

È ugualmente possibile che ci sia una scala di spam, calcolata da più fattori, e una volta che un Tweet o un account supera una soglia, subisce la retrocessione. Penso che valga la pena menzionarli poiché gli utenti di Twitter potrebbero non comprendere le implicazioni di come viene utilizzata la piattaforma. Ad esempio, la pubblicazione di un Tweet eccessivamente aggressivo potrebbe avere un impatto negativo sui Tweet successivi di un account per un certo periodo di tempo. Comportamenti nervosi ripetuti potrebbero comportare peggiori, come la cancellazione completa dell'account, senza possibilità di recupero.

Aggiungerò qui alcuni fattori che non sono specificatamente menzionati nei brevetti di Twitter o nei post del blog perché Twitter non rivela tutti i fattori di identificazione dello spam per ovvi motivi. Tuttavia, alcune caratteristiche degli account di spam e spam sembrano così ovvie che ne aggiungo alcune da osservazioni personali o da fonti di ricerca ben considerate per fornire una comprensione più ampia di ciò che può comportare la retrocessione dello spam.

Fattori di spam e altri fattori di ranking negativi

  • I Tweet contenenti un messaggio commerciale pubblicato senza una relazione follower/followee o in una relazione unidirezionale (l'Autore del Tweet sta seguendo l'account che sta citando ma l'account ricevente non segue l'Autore), ma non hanno avuto interazioni precedenti, comincia a sembrare sospettoso. Se questo viene fatto molte volte con testo simile o identico, non ci vorrà molto perché questa venga considerata un'attività di spam, specialmente per gli account più recenti.
  • Età dell'account – dove l'età mostra che l'account è stato creato molto di recente. (La recente ricerca di SparkToro sullo spam di Twitter suggerisce un'età dell'account di 90 giorni o meno.)
  • Flag dell'account NSFW: l'account ha un flag che indica che è stato identificato per il collegamento a siti Web documentati in una lista nera di siti potenzialmente offensivi (come siti con materiale pornografico, materiale esplicito, gore, ecc.).
  • Flag offensivo: il Tweet è stato identificato come contenente uno o più termini da una lista nera di termini offensivi.
  • Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
  • Account Posting Frequent Copyright Infringement
  • Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
  • Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
  • Tweets containing offensive language might be allowed to erode their interestingness score.
  • Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
  • Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
  • Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
  • Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
  • Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
  • Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
  • High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
  • CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
  • Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
  • Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
  • Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
  • Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
  • Tweets Containing Affiliate Links – self explanatory.
  • Frequent Requests to Befriend Users in a Short Time Frame
  • Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
  • Accounts that Tweet Only URLs
  • Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
  • Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
  • Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
  • Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
  • Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
  • Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
  • Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
  • Profile Descriptions Matching Spammer Keywords/Patterns
  • Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
  • Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.

Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.

The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.

Insomma

Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.

The AI components include:

  • Neural networks.
  • Natural language processing.
  • Circumflex calculation.
  • Markov modeling.
  • Logistic regression.
  • Decision tree analysis.
  • Random forest analysis.
  • Supervised and unsupervised machine learning.

As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.

Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.

Author's disclosure

I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.

As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.

In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.

I have not disclosed any information covered by the protective order in this article from my recently-resolved case.

I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:

  • Identificazione dei messaggi rilevanti in un grafico di conversazione
  • Fornitura di contenuti per la trasmissione da una piattaforma di messaggistica
  • Promozione di contenuti in una piattaforma di messaggistica in tempo reale
  • Sistema e metodo per determinare la rilevanza dei contenuti social
  • Sistemi e metodi per stabilire o mantenere un social network personalizzato e affidabile
  • Visualizzazione dei messaggi rilevanti di un grafico di conversazione
  • Infrastruttura di ricerca
  • Filtraggio della visibilità
  • Assegnazione di priorità ai messaggi all'interno di una rete di messaggi
  • Generatore di grafici dell'applicazione
  • Utilizzo del Deep Learning su larga scala nelle linee temporali di Twitter
  • Sistemi e metodi antispamming a più livelli
  • Rilevamento di interazioni con script o altrimenti anomale con la piattaforma di social media
  • Come Twitter sta combattendo lo spam e l'automazione dannosa
  • Account sospesi in retrospettiva: un'analisi dello spam di Twitter
  • Analisi di Twitter: il 19,42% degli account attivi sono falsi o spam

Le opinioni espresse in questo articolo sono quelle dell'autore ospite e non necessariamente di Search Engine Land. Gli autori dello staff sono elencati qui.