Factorii de clasificare a algoritmului Twitter: un ghid definitiv

Publicat: 2022-07-01

Brevetele Twitter și alte publicații dezvăluie aspecte probabile ale modului în care tweet-urile sunt promovate în fluxurile cronologice ale utilizatorilor.

Unii dintre factorii de clasare ai cronologiei Twitter sunt foarte surprinzători, iar ajustarea abordării dvs. pentru Tweetare vă poate ajuta să obțineți o mai mare vizibilitate a Tweet-urilor.

Pe baza unui număr de brevete cheie și a altor surse, am subliniat aici o serie de factori probabili de clasare pentru algoritmul Twitter.

Cronologia Twitter

Twitter a început să folosească o cronologie bazată pe algoritm în 2016, când a trecut de la ceea ce era pur și simplu un flux cronologic de Tweeturi din toate conturile pe care le-a urmărit. Modificarea a clasat cronologia utilizatorilor pentru a le permite să vadă „mai întâi cele mai bune Tweets”. De atunci, Twitter a experimentat variații ale acestui lucru până în prezent.

Un algoritm bazat pe feed pentru rețelele sociale nu este neobișnuit. Facebook și alte platforme de social media au făcut același lucru.

Motivele acestei schimbări la un amestec algoritmic de tweet-uri cronologice sunt destul de clare. O cronologie pur personală, cronologică, compusă doar din conturile pe care le-ai urmărit, este foarte sigilată și, prin urmare, limitată – în timp ce introducerea de postări din conturi dincolo de conexiunile directe ale cuiva are potențialul de a crește timpul petrecut pe platformă, ceea ce, la rândul său, crește caracterul persistent, care, la rândul său, crește valoarea serviciului pentru agenții de publicitate și partenerii de date.

Diferite clasificări de interese ale utilizatorilor și subiecte de interes asociate cu conturile și tweet-urile acestora permit și mai mult potențialul de direcționare a reclamelor pe baza datelor demografice ale utilizatorilor și a subiectelor de conținut.

Este posibil ca utilizatorii puternici de Twitter să fi dezvoltat unele intuiții cu privire la diverși factori Tweet care pot duce la o mai mare vizibilitate în cadrul algoritmului.

Un memento despre brevete

Corporațiile înregistrează brevete tot timpul pentru invenții pe care de fapt nu le folosesc în serviciul live. Când lucram la Verizon, am scris personal o serie de proiecte de brevet pentru diverse invenții pe care eu și colegii mei le-am dezvoltat în timpul muncii noastre – inclusiv lucruri pe care nu am ajuns să le folosim în producție.

Deci, faptul că Twitter are brevete care menționează idei despre cum ar putea funcționa lucrurile nu garantează deloc că așa funcționează lucrurile.

De asemenea, brevetele conțin în mod obișnuit mai multe variante de realizare, care sunt în esență diferite moduri în care o invenție ar putea fi implementată - brevetele încearcă să descrie elementele cheie ale unei invenții cât mai larg posibil pentru a revendica orice posibilă utilizare care i-ar putea fi atribuită.

În cele din urmă, la fel ca și în cazul celebrului brevet al algoritmului PageRank, care a stat la baza motorului de căutare Google, în cazurile în care Twitter a folosit o întruchipare a unuia dintre brevetele lor, este foarte probabil să fi schimbat și rafinat invențiile simple și ample descrise, și va continua să facă asta.

Chiar și în ciuda tuturor acestor vagități și incertitudini tipice, am găsit o serie de concepte foarte interesante în descrierile brevetelor Twitter, dintre care multe sunt foarte probabil să fie încorporate în sistemul lor.

Twitter și Deep Learning

Un avertisment suplimentar înainte de a continua implică modul în care algoritmul de cronologie al Twitter a încorporat Deep Learning în ADN-ul său, cuplat cu diferite niveluri de supraveghere umană, făcându-l o fiară cu evoluție automată frecventă, dacă nu în mod constant.

Aceasta înseamnă că atât schimbările mari, cât și schimbările mici, incrementale, pot și vor avea loc în modul în care efectuează clasarea conținutului. Mai mult, această abordare de învățare automată poate duce la condiții în care inginerii umani ai Twitter nu pot ști în mod direct de ce este afișat un anumit conținut sau depășește alt conținut datorită abstracției modelelor de clasare produse, similar cu ceea ce am descris când scriam despre modelele produse de Google. clasarea calității prin învățarea automată.

În ciuda complexității și sofisticarii modului în care funcționează algoritmul Twitter, înțelegerea factorilor care probabil intră în cutia neagră poate încă dezvălui ce influențează clasamentele.

Cronologia inițială a Twitter a fost compusă pur și simplu din toate Tweeturile din conturile pe care le-a urmărit de la ultima vizită, care au fost colectate și afișate în ordine cronologică inversă, cu cele mai recente Tweeturi afișate mai întâi și fiecare Tweet anterior afișat unul după altul pe măsură ce derula unul. în jos.

Algoritmul actual este încă compus în mare parte din aceeași listă cronologică inversă de Tweeturi, dar Twitter efectuează o re-clasificare pentru a încerca să afișeze cele mai interesante Tweeturi în primul rând dintre Tweeturile recente.

În fundal, tweet-urilor li s-a atribuit un scor de clasare de către un model de relevanță care prezice cât de interesant este probabil să fie fiecare Tweet pentru tine, iar această valoare a scorului dictează ordinea de clasare.

Tweeturile cu cele mai mari scoruri sunt afișate primele în lista de cronologie, iar restul celor mai recente Tweeturi afișate mai jos. Este de remarcat faptul că în cronologia dvs. sunt intercalate acum și Twe-uri de la conturi pe care nu le urmăriți, precum și câteva Twe-uri publicitare.

Graficul conexiunii Twitter

În primul rând, unul dintre cele mai influente aspecte ale cronologiei Twitter este modul în care Twitter afișează acum Tweeturile pe baza nu numai pe conexiunile tale directe în acest moment, ci, în esență, care este graficul tău social unic, la care Twitter se referă în brevete ca „ graficul conexiunii”.

Graficul de conexiune reprezintă conturile ca noduri și relațiile ca linii („margini”) care conectează unul sau mai multe noduri. O relație se poate referi la asocieri între conturile Twitter.

De exemplu, urmărirea, abonarea (cum ar fi prin programul Twitter Super Follows sau, potențial, pentru funcția de abonare anunțată de Twitter pentru interogări de cuvinte cheie), aprecierea, etichetarea etc. – toate acestea creează relații.

Relațiile din graficul de conexiune pot fi unidirecționale (de exemplu, te urmăresc) sau bidirecționale (de exemplu, amândoi ne urmăm unul pe celălalt). Dacă te urmăresc, dar tu nu mă urmărești, aș avea o așteptare mai mare să văd Tweeturile și Retweeturile tale care apar în cronologia mea, dar nu te-ai aștepta neapărat să le vezi pe ale mele.

Pur și simplu pe baza graficului conexiunii, este posibil să vedeți Tweeturi și Retweeturi de la cei pe care i-ați urmărit, precum și Tweeturi la care conexiunile dvs. le-au apreciat sau le-au răspuns.

Algoritmul Twitter a extins Tweeturile pe care le puteți vedea dincolo de acele conturi cu care ați interacționat direct. Tweeturile pe care le puteți vedea acum în cronologia dvs. includ și Tweeturi de la alții care postează despre subiecte pe care le-ați urmărit, Tweeturi similare în anumite moduri cu Tweeturile pe care le-ați apreciat anterior și Tweeturi bazate pe subiecte pe care algoritmul prevede că v-ar putea plăcea.

Chiar și printre aceste tipuri extinse de Tweeturi pe care le puteți obține, se aplică sistemul de clasare al algoritmului – nu primiți toate Tweeturile care se potrivesc cu subiectele, aprecierile și interesele anticipate – primiți o listă organizată prin algoritmul Twitter.

Clasamentul interesului

În ADN-ul mai multor brevete și algoritm al Twitter pentru clasarea tweet-urilor se află conceptul de „interesant”.

Acest lucru a fost destul de probabil inspirat de un brevet acordat Yahoo în 2006, numit „Clasamentul de interes al obiectelor media”, care descria metodele de clasare utilizate în algoritmul pentru Flickr (serviciul dominant de partajare a fotografiilor pe rețelele sociale care a fost ulterior eclipsat de Instagram și Pinterest).

Acel algoritm anterior pentru Flickr are multe asemănări cu brevetele contemporane ale Twitter. A folosit factori similari și chiar identici pentru a calcula interesul. Acestea au inclus:

  • Informații despre locație.
  • Metadate de conținut.
  • Cronologie.
  • Modele de acces utilizator.
  • Semnale de interes (cum ar fi etichetarea, comentarea, favorizarea).

S-ar putea descrie cu ușurință algoritmul Twitter ca luând algoritmul de interes Flickr, extinzându-se asupra unora dintre factorii implicați, calculându-l printr-un proces de învățare automată mai sofisticat, interpretând conținutul bazat pe procesarea limbajului natural (NLP) și încorporând o serie de variații suplimentare pentru permiteți rapiditatea prezentării în timp aproape real pentru un număr imens de utilizatori simultan.

Clasament pe Twitter și spam

Este, de asemenea, interesant să ne concentrăm asupra metodelor utilizate de Twitter pentru a detecta spam-ul, conturile de utilizator spam și pentru a retrograda sau suprima Tweeturile spam din vedere.

Poliția pentru dezinformare, alt conținut care încalcă politicile și hărțuire este, de asemenea, intensă, dar asta nu converge neapărat la fel de mult cu evaluările de clasare.

Unele dintre brevetele de detectare a spam-ului sunt interesante deoarece văd utilizatorii care se confruntă frecvent cu procesele de suprimare a spam-ului Twitter destul de neintenționat și există o serie de lucruri pe care le-ar putea face care au ca rezultat eforturi de a promova și interacționa cu publicul Twitter. Twitter a fost nevoit să creeze procese agresive de supraveghere pentru a controla și a elimina spam-ul, iar chiar și cei mai importanți utilizatori pot încălca aceste procese din când în când.

Astfel, înțelegerea factorilor de spam ai Twitter poate fi importantă, deoarece pot determina tweet-urile cuiva să obțină deduceri din interesul pe care altfel ar avea-o, iar această pierdere a scorurilor de relevanță poate reduce vizibilitatea și puterea de distribuție a Tweet-urilor tale.

Factori de clasare pe Twitter

Deci, care sunt factorii menționați în brevetele Twitter pentru evaluarea „interesului” și care influențează modul în care Twitter punctează Tweeturile pentru clasamente?

Recentitatea postării pe Tweet

Cu cele mai recente fiind în general mult mai preferate. În afară de anumite cuvinte cheie și alte tipuri de căutări, majoritatea Tweet-urilor ar fi din ultimele ore. Pot fi incluse și unele tweet-uri „în cazul în care ați ratat-o”, care par să variaze în principal în ultimele zile sau două.

Imagini sau Video

În general, în general, Google și alte platforme au indicat că utilizatorii tind să prefere mai mult imaginile și media video, așa că un Tweet care conține oricare ar putea obține un scor mai mare.

Twitter citează în mod special plăcile de imagine și video, care se referă la site-uri web care au implementat carduri Twitter, ceea ce îi permite Twitter să afișeze cu ușurință fragmente de previzualizare mai bogate atunci când Tweeturile conțin linkuri către pagini web cu marcarea cardului.

Tweeturile cu linkuri care afișează imagini și videoclipuri sunt, în general, mai atractive pentru utilizatori, dar poate exista un avantaj suplimentar pentru Tweeturile care trimit la paginile cu marcajul cardului pentru afișarea conținutului cardului.

Interacțiuni cu Tweetul

Twitter citează Like-uri și Retweeturi, dar s-ar putea aplica și aici valori suplimentare legate de Tweet. Interacțiunile includ:

  • Îi place
  • Retweet
  • Clicuri către linkuri care pot fi în Tweet
  • Click pentru hashtag-uri din Tweet
  • Clicuri către conturile Twitter menționate în Tweet
  • Detalii se extind – faceți clic pentru a vedea detalii despre Tweet, cum ar fi pentru a vedea cui i-a apreciat sau l-a retweetat.
  • Urmărește noi – câte persoane au trecut cursorul peste numele de utilizator și apoi au făcut clic pentru a urmări contul.
  • Vizite la profil – câte persoane au făcut clic pe avatar sau pe numele de utilizator pentru a vizita profilul posterului.
  • Partajări – de câte ori a fost distribuit Tweetul prin intermediul butonului de distribuire.
  • Răspunsuri la Tweet

Impresii

În timp ce majoritatea afișărilor provin din afișarea Tweet-ului în cronologie, unele afișări sunt derivate atunci când Tweeturile sunt partajate prin încorporarea în pagini web. Este posibil ca acele cifre de afișări să afecteze și scorul de interes pentru Tweet.

Probabilitatea interacțiunilor

Un brevet Twitter descrie calcularea unui scor pentru un Tweet reprezentând cât de probabil este ca adepții Autorului Tweet-ului în sistemul de mesagerie socială să interacționeze cu mesajul, scorul bazându-se pe abaterea calculată a nivelului de interacțiune între nivelul de interacțiune observat al Followers of Autorul și nivelul de interacțiune așteptat al Adepților.

Lungimea Tweet-ului

Un tip de clasificare este lungimea textului conținut în Tweet, care ar putea fi clasificată ca valoare numerică (de exemplu, 103 caractere) sau ar putea fi desemnată ca una dintre câteva categorii (de exemplu, scurt, mediu sau lung) .

În funcție de subiectele implicate cu un Tweet, acesta poate fi evaluat a fi mai mult sau mai puțin interesant – pentru unele subiecte, scurtul ar putea fi mai benefic, iar pentru alte subiecte, lungimea medie sau lungă ar putea face Tweetul mai interesant.

Interacțiuni cu autorul precedent

Interacțiunile anterioare cu autorul unui Tweet vor crește probabilitatea (și scorul de clasare în cronologia cuiva) ca cineva să vadă alte Tweeturi ale aceluiași autor.

Aceste valori de interacțiune cu graficul social pot include scorul în funcție de originea relației.

Așadar, antecedentele de răspunsuri, aprecieri sau retweetare la Tweeturile unui autor, chiar dacă cineva nu urmărește acel cont, poate crește probabilitatea de a vedea cele mai recente Tweeturi ale acestora.

Există o probabilitate ca interacțiunile recente ale cuiva cu un autor de Tweet să țină cont și de acest lucru, așa că dacă nu ați interacționat cu unul dintre Tweeturile lui de mult timp, vizibilitatea potențială a Tweet-urilor mai noi poate scădea pentru dvs.

În contextul algoritmului, „autor” și „cont” sunt folosite în esență pentru a însemna același lucru, astfel încât Tweeturile dintr-un cont corporativ sunt tratate la fel ca Tweeturile de la o persoană.

Evaluarea credibilității autorului

Acest scor poate fi calculat prin relațiile și interacțiunile unui autor cu alți utilizatori.

Exemplul dat în brevet este că un autor urmat de mai multe conturi de profil înalt sau prolifice ar avea un scor de credibilitate ridicat.

În timp ce o valoare de rating citată este „scăzută”, „medie” și „mare”, brevetul sugerează, de asemenea, o scară de valori de rating de la 1 la 10 și poate include un factor calitativ și/sau cantitativ.

Bănuiesc că un interval ca de la 1 la 10 este mult mai probabil. Se pare că unele dintre valorile evaluării spam-ului ar putea fi folosite pentru a scădea dintr-o evaluare a credibilității autorului. Mai multe despre potențialii factori de evaluare a spamului în ultima parte a acestui articol.

Relevanța autorului

Este posibil ca autorii care sunt evaluați a fi mai relevanți pentru un anumit subiect să aibă o valoare mai mare a relevanței autorului. De asemenea, mențiunile unui Autor le pot face mai relevante în contextul Tweet-urilor care le menționează.

Brevetele vorbesc, de asemenea, despre asocierea autorilor cu subiecte, așa că este posibil ca autorii care Tweet care implică subiecte specifice în mod frecvent, împreună cu rate bune de implicare, să fie considerați a avea o relevanță mai mare atunci când Tweeturile lor implică acel subiect.

Valori de autor

Tweeturile pot fi clasificate în funcție de proprietățile Autorului. Aceste valori pot influența interesul relativ al mesajelor Autorului. Astfel de valori de autor includ:

  • Locația autorului (cum ar fi orașul sau țara)
  • Vârsta (pe baza datei de naștere care poate fi specificată în detaliile contului)
  • Numărul de urmăritori
  • Numărul de conturi pe care le urmărește autorul
  • Raportul dintre numărul de urmăritori și conturile urmărite , deoarece un număr mai mare de urmăritori în comparație cu urmăriți transmite o popularitate mai mare împreună cu numărul brut de urmăritori. Un raport mai apropiat de 1 ar indica o contrapartidă în urma filozofiei din partea autorului, făcând mai puțin posibilă deducerea popularității și dând o aparență de popularitate artificială.
  • Numărul de tweet-uri postate de autor pe perioadă de timp (de exemplu: pe zi sau pe săptămână).
  • Vechimea contului (luni de la deschiderea contului, de exemplu) – cu conturi care au fost create foarte recent, având o pondere mult mai mică.
  • Încredere.

Subiecte

Tweeturile sunt clasificate în funcție de subiectele pe care le implică. Există niște algoritmi foarte sofisticați implicați în clasificarea Tweet-urilor.

Utilizatorii Twitter au selectat adesea subiecte pentru a fi asociate cu conturile lor și, evident, vi se vor afișa tweet-uri populare din subiectele pe care le-ați selectat. Dar, de asemenea, Twitter creează automat subiecte pe baza cuvintelor cheie găsite în Tweets.

Pe baza interacțiunilor dvs. cu Tweeturile și conturile pe care le urmăriți, Twitter prezice, de asemenea, subiecte de care probabil ați fi interesat și vă arată câteva Tweeturi din acele subiecte, deși nu v-ați abonat oficial la subiecte.

Clasificarea frazei

Sistemul Twitter este extrem de complex și permite ca modele personalizate de clasare să fie aplicate potențial la Tweets pentru anumite subiecte și atunci când anumite fraze sunt prezente.

Twitter are un personal mare care lucrează pentru a dezvolta modele pentru anumite „călătorii ale clienților”, iar acest lucru ar părea să coincidă cu descrierile brevetelor despre modul în care editorii ar putea stabili reguli pentru postările orientate pe subiecte și cuvintele cheie sau expresiile din postări.

De exemplu, postările care conțin text despre „angajare acum” sau „va fi la televizor” ar putea fi considerate plictisitoare pentru un subiect, în timp ce expresii precum „proaspăt”, „la reducere” sau „doar astăzi” ar putea primi o importanță mai mare, deoarece ar putea fi prezis a fi mai interesant.

Acest lucru ar putea fi destul de dificil de satisfăcut, deoarece există un domeniu uriaș de subiecte potențiale și ponderi personalizate care ar putea fi aplicate.

O postare recentă pe Twitter pentru un designer de produse de personal, Customer Journey a descris cum ar ajuta postul:

„Fie că cauți Ariana Grande fanart, #herpetologie sau uniciclism extrem, totul se întâmplă pe Twitter. Echipa noastră este responsabilă pentru a ajuta noii membri să navigheze în gama variată de conversații publice care au loc pe Twitter și să găsească rapid un sentiment de apartenență…”

„Adunați informații din date și cercetări calitative, dezvoltați ipoteze, schițați soluții cu prototipuri și testați idei cu echipa noastră de cercetare și în experimente.”

„Documentează modelele de interacțiune detaliate și specificațiile UI.”

„Experiență de proiectare pentru învățarea automată, taxonomii bogate și/sau grafice de interese.”

Această descriere sună foarte similar cu ceea ce este descris în brevetul Twitter pentru „Sistem și metodă pentru determinarea relevanței conținutului social”, unde:

„Editorii ar putea stabili reguli de clasificare a anumitor fraze ca mai mult sau mai puțin interesante...”

„...un editor poate decide că unele fraze și atribute sunt interesante în tot conținutul, indiferent de categoria de loc care este autorul conținutului. De exemplu, expresia „la vânzare” sau „eveniment” poate fi interesantă în toate cazurile și se poate aplica o pondere pozitivă.”

Un brevet descrie modul în care Tweeturilor detectate ca având limbaj comercial li s-ar putea atribui un scor mai mic decât Tweetele care nu au limbaj comercial. (Dimpotrivă, astfel de ponderi ar putea fi inversate dacă utilizatorul efectuează căutări care indică interesul de a cumpăra ceva, astfel încât Tweeturile care conțin limbaj comercial ar putea primi o pondere mai mare.)

Ora din zi

Ora din zi poate fi folosită pentru a influența relevanța. De exemplu, ar putea fi implementată o regulă pentru a acorda mai multă importanță tweet-urilor care menționează „Cafea” între orele 8:00 și 10:00 și/sau tweet-urilor postate de cafenele.

Locații

Patentele descriu modul în care „referințele de locație” din Tweeturi ar putea invoca o pondere mai mare pentru Tweeturile despre o locație și/sau pentru conturile asociate cu referința de locație față de alte conturi care menționează doar locația. De asemenea, proximitatea geografică dintre locația dispozitivului unui utilizator și locația asociată cu elementele de conținut (textul, imaginea, videoclipul și/sau autorul Tweetului) poate crește sau reduce relevanța potențială.

Limba

Limba Tweet-ului poate fi clasificată (de exemplu, engleză, franceză etc.).

Limba poate fi determinată automat folosind diverse instrumente automate de evaluare a limbii.

Un Tweet într-o anumită limbă ar fi de mai mult interes pentru vorbitorii de limbă și de mai puțin interes pentru ceilalți.

Răspunde la Tweets

Tweeturile pot fi clasificate în funcție de dacă sunt răspunsuri la Tweeturile anterioare. Un Tweet care este un răspuns la un Tweet anterior poate fi considerat mai puțin interesant decât un Tweet referitor la un subiect nou.

Într-o descriere a brevetului, subiectul unui Tweet ar putea determina dacă Tweetul va fi desemnat pentru a fi afișat într-un alt cont sau inclus în fluxurile de mesaje ale altor conturi.

Când vă vizualizați cronologia, există cazuri în care unele dintre răspunsurile unui Tweet sunt afișate și împreună cu Tweetul principal - cum ar fi atunci când Tweeturile de răspuns sunt postate de conturile pe care le urmăriți. În cele mai multe cazuri, Tweeturile de răspuns vor fi vizualizate numai atunci când cineva face clic pentru a vedea firul sau face clic pe Tweet pentru a vedea toate răspunsurile.

Conturi „Binecuvântate”.

Acesta este un concept ciudat, despre care cred că ar putea să nu fie în producție.

Twitter descrie Conturile Binecuvântate ca fiind identificate în graficul unei anumite conversații, unde Autorul inițial dintr-o conversație ar fi considerat „binecuvântat”, iar din răspunsurile ulterioare la postarea inițială, oricare dintre Răspunsurile la care primește răspuns ulterior de către contul binecuvântat devine și „binecuvântat”.

Acelor Tweeturi postate de Blessed Accounts în conversație li se va acorda scoruri de relevanță sporite.

Profilul site-ului web

Acest lucru nu este menționat în brevetele Twitter, dar are prea mult sens în contextul tuturor celorlalți factori pe care i-au menționat pentru a trece.

O mulțime de site-uri web de conținut majore au link-urile partajate pe Twitter, iar Twitter ar putea crea cu ușurință un profil de reputație/scor de popularitate care ar putea, de asemenea, să ia în considerare clasamentul Tweet-urilor atunci când sunt postate link-uri către conținutul de pe site-uri web.

Site-uri de știri, resurse de informații, site-uri de divertisment – ​​toate acestea ar putea avea scoruri dezvoltate din aceiași factori utilizați pentru a evalua conturile Twitter. Tweeturile de pe site-uri web mai apreciate și mai bine interacționate cu site-urile ar putea avea o mai mare importanță decât site-urile relativ necunoscute și mai puțin interacționate cu acestea.

Twitter verificat

Da, dacă ați bănuit că insigna albastră de lângă nume de utilizator transmite un tratament preferențial, există o expresie specifică într-unul dintre brevetele Twitter care confirmă că au luat în considerare cel puțin acest lucru.

Deoarece conturile verificate au adesea deja diverși alți indicatori de popularitate asociați cu ele, nu este ușor evident dacă acest factor este în uz sau nu. Tweeturile postate de un cont care este verificat pot primi un scor de relevanță mai mare, permițându-le să apară mai mult decât Tweeturile conturilor neverificate.

Iată descrierea brevetului:

„Într-una sau mai multe variante de realizare ale invenției, modulul de conversație (120) include funcționalitate de aplicare a unui filtru de relevanță pentru a crește scorurile de relevanță ale unuia sau mai multor conturi de creație ale graficului de conversație care sunt identificate într-o listă albă de conturi verificate. De exemplu, lista albă a conturilor verificate poate fi o listă de conturi care sunt conturi de mare profil care sunt susceptibile de uzurpare a identității. în acest exemplu, conturile de celebrităţi şi de afaceri ar fi verificate de către platforma de mesagerie (100) pentru a notifica utilizatorii platformei de mesagerie (100) că conturile sunt autentice. Într-una sau mai multe exemple de realizare ale invenției, modulul de conversație (120) este configurat pentru a crește scorurile de relevanță ale conturilor de creație verificate cu o sumă/procent predefinit.”

Are Trend

Acesta este un semnal binar care indică dacă Tweetul a fost identificat ca conține un subiect care era în tendințe la momentul difuzării mesajului.

Aplicația a detectat gen, orientare sexuală și interese

Twitter poate să folosească informațiile despre dispozitivul mobil al deținătorului de cont pentru a deduce sexul deținătorului contului sau pentru a deduce interese în subiecte precum știri, sport, antrenament cu greutăți și alte subiecte.

Unele dispozitive mobile oferă informații despre alte aplicații încărcate pe telefon în scopul diagnosticării potențialelor conflicte de programare a aplicațiilor. Astfel, unor Tweeturi care se potrivesc sexului, orientării sexuale și intereselor dvs. de actualitate li s-ar putea acorda mai multe puncte de interes pur și simplu pe baza concluziilor făcute din aplicațiile telefonului dvs. (A se vedea: https://screenrant.com/android-apps-collecting-app-data/ )

Și mai mulți factori de clasare

Twitter afirmă că:

„Lista noastră de caracteristici considerate și interacțiunile lor variate continuă să crească, informând modelele noastre despre modele de comportament din ce în ce mai nuanțate.”

Deci, această listă de factori este probabil o subreprezentare a factorilor pe care îi pot folosi, iar lista lor se poate extinde.

De asemenea, imaginați-vă că o combinație personalizată a unora dintre factorii de mai sus poate fi aplicată ca modele pentru Tweeturile asociate cu anumite subiecte, dând o complexitate potențială mare clasărilor prin metodele de învățare automată. (Din nou, învățarea automată aplicată pentru a crea modele de ponderare a rangului personalizate pentru anumite interogări sau subiecte este foarte similară cu metodele care sunt probabil utilizate cu Google.)

Twitter a declarat că notarea Tweet-urilor are loc de fiecare dată când cineva vizitează Twitter și de fiecare dată când cineva își reîmprospătează cronologia. Având în vedere unii dintre factorii complexi implicați, asta este foarte rapid!

Twitter utilizează testarea A/B a ponderărilor factorilor de clasare și alte modificări ale algoritmului și determină dacă o modificare propusă este o îmbunătățire bazată pe implicare și timp de vizualizare/interacțiune cu un Tweet. Acesta este folosit pentru a antrena modele de clasare.

Implicarea învățării automate în acest proces sugerează că modelele de clasare ar putea fi produse pentru multe scenarii specifice și, potențial, specifice anumitor subiecte și tipuri de utilizatori. Odată dezvoltat, modelul poate fi testat și, dacă îmbunătățește implicarea, poate fi lansat rapid tuturor utilizatorilor.

Cum pot folosi agenții de marketing aceste informații

Există o mulțime de inferențe care pot fi extrase din lista de potențiali factori de clasare și care pot fi folosite de marketeri pentru a-și îmbunătăți tacticile de Tweetare.

Un cont de Twitter care postează doar anunțuri despre produsele sale și informații promoționale despre compania sa nu va avea probabil atât de multă vizibilitate precum conturile care sunt mai interactive cu comunitatea lor, deoarece interacțiunile produc mai multe semnale de clasare și beneficii potențiale.

Experții în rețelele sociale au recomandat de multă vreme o abordare de combinare a tipurilor de postări, mai degrabă decât publicarea pur și simplu de promovare autoreferențială - aceste strategii includ „Regula treime”, „Regula 80/20” și altele.

Factorii de clasare Twitter susțin probabil aceste teorii, deoarece atragerea mai multor interacțiuni cu un număr de utilizatori Twitter este mai probabil să crească vizibilitatea unui cont.

De exemplu, un cont mare de companie cu mulți adepți ar putea posta un sondaj interesant pentru a obține sfaturi despre ce caracteristici să adăugați produsului său. Voturile și comentariile postate de utilizatori vor face ca respondenții să fie mult mai probabil să vadă următoarea postare a companiei din cauza interacțiunilor recente și că următoarea postare ar putea fi promovarea sau anunțarea ceva nou. Și, adepții respondenților ar putea avea, de asemenea, mai multe șanse să vadă următoarea postare a companiei, deoarece Twitter pare să ia în considerare faptul că utilizatorii cu interese similare ar putea fi mai deschiși să vadă conținut care se potrivește cu interesele lor.

De asemenea, factorii sugerează o serie de abordări potențial benefice.

Când postați un Tweet care promovează un produs sau faceți un anunț, combinarea a ceva pentru a obține un răspuns din partea adepților ar putea extinde cu ușurință expunerea pe platformă, deoarece răspunsurile fiecărui respondent la Tweetul dvs. pot crește șansele ca urmăritorii lor direcți să vadă Tweetul original și răspunsul conexiunii Tweet.

Utilizarea aspectului graficului social al algoritmului Twitter poate ajuta la creșterea interesului tweet-urilor dvs. și poate crește expunerea tweet-urilor dvs. pentru alți utilizatori.

Factorii de spam pot avea un impact negativ asupra clasamentului tweet-urilor

Algoritmii de detectare a spamului pot avea un impact negativ asupra capacității de clasare a Tweet-urilor.

În primul rând, Twitter este foarte rapid să suspende conturile care trimit în mod flagrant spam și, în cazurile în care este evident și fără echivoc, te poți aștepta ca contul să fie închis brusc, ceea ce face ca toate Tweeturile sale să dispară din graficele conversațiilor și cronologie și ceea ce face ca profilul contului să nu mai fie disponibil pentru vizualizare.

În alte situații în care nu este la fel de clar dacă un cont trimite spam, Tweeturile contului ar putea fi pur și simplu retrogradate prin aplicarea unor scoruri negative de pondere sau Tweeturile ar putea fi blocate sau suspendate până când sau dacă titularul contului ia o acțiune corectivă sau le verifică identitatea.

De exemplu, un cont de Twitter cu o istorie lungă de tweet-uri bune ar putea începe brusc să posteze reclame Viagra sau link-uri către programe malware, cum ar fi dacă un cont stabilit ar fi piratat. Twitter ar putea suspenda temporar contul până când vor fi luate măsuri corective, cum ar fi trecerea unei verificări CAPTCHA sau primirea unui cod de verificare prin telefonul mobil și schimbarea parolelor. Un alt exemplu ar putea fi un utilizator nou care depășește accidental un anumit prag de urmărire a prea multe conturi într-un interval de timp scurt sau postează puțin prea des.

Twitter folosește o serie de metode pentru a detecta spam-ul și pentru a-l exclude, astfel încât utilizatorii să-l vadă mai puțin.

O mare parte din detectarea automată se bazează pe detectarea unei combinații de caracteristici ale profilului contului, comportamente de Tweetare a contului și conținut găsit în Tweeturile contului.

Twitter a dezvoltat un număr de „amprente” spam caracteristice pentru a realiza detectarea rapidă a modelelor. Un brevet Twitter descrie cum:

„Spamul este determinat prin compararea caracteristicilor conturilor de spam identificate și construirea unui „grafic de similaritate” care poate fi comparat cu alte conturi suspectate de spam.”

Tweeturile identificate ca pot conține spam ar putea fi semnalate cu o valoare binară, cum ar fi „da” sau „nu”, iar apoi Tweeturile care sunt semnalate pot fi filtrate din cronologie.

Este la fel de posibil să existe o scară de spam, calculată din mai mulți factori, iar odată ce un Tweet sau un cont depășește un prag, acesta este retrogradat. Cred că merită să includem menționarea acestora, deoarece utilizatorii Twitter ar putea să nu înțeleagă implicațiile modului în care utilizează platforma. De exemplu, postarea unui Tweet excesiv de agresiv ar putea avea un impact negativ asupra Tweet-urilor ulterioare ale unui cont pentru o anumită perioadă de timp. Comportamentul repetat neplăcut ar putea duce la mai rău, cum ar fi ștergerea completă a contului, fără nicio oportunitate de recuperare.

Voi adăuga aici câțiva factori care nu sunt menționați în mod specific în brevetele Twitter sau în postările de blog, deoarece Twitter nu dezvăluie toți factorii de identificare a spam-ului din motive evidente. Dar, unele caracteristici ale conturilor de spam și spam par atât de evidente încât adaug câteva din observații personale sau din surse de cercetare bine respectate pentru a oferi o înțelegere mai largă a ceea ce poate provoca retrogradarea spamului.

Factori de spam și alți factori negativi de clasare

  • Tweeturile care conțin un mesaj comercial postat fără o relație follower/followee sau într-o relație unidirecțională (Autorul Tweet-ului urmărește contul pe care îl menționează, dar contul de primire nu îl urmărește pe Autor), dar nu au avut interacțiuni anterioare, încep să pară suspicios. Dacă acest lucru se face de mai multe ori cu text similar sau identic, nu va dura mult până când aceasta va fi considerată activitate de spam, în special pentru conturile mai noi.
  • Vârsta contului – unde vârsta arată că contul a fost configurat foarte recent. (Cercetarea recentă a SparkToro despre spam-ul Twitter sugerează vârsta contului de 90 de zile sau mai puțin.)
  • Semnal NSFW contului – contul are un semnalizator care indică faptul că a fost identificat pentru a fi conectat la site-uri web documentate într-o listă neagră de site-uri potențial ofensatoare (cum ar fi site-uri care au porno, materiale explicite, sângerări etc.).
  • Flag ofensiv – Tweetul a fost identificat ca conţinând unul sau mai mulţi termeni dintr-o listă neagră de termeni ofensivi.
  • Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
  • Account Posting Frequent Copyright Infringement
  • Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
  • Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
  • Tweets containing offensive language might be allowed to erode their interestingness score.
  • Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
  • Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
  • Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
  • Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
  • Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
  • Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
  • High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
  • CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
  • Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
  • Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
  • Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
  • Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
  • Tweets Containing Affiliate Links – self explanatory.
  • Frequent Requests to Befriend Users in a Short Time Frame
  • Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
  • Accounts that Tweet Only URLs
  • Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
  • Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
  • Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
  • Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
  • Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
  • Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
  • Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
  • Profile Descriptions Matching Spammer Keywords/Patterns
  • Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
  • Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.

Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.

The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.

In concluzie

Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.

The AI components include:

  • Neural networks.
  • Natural language processing.
  • Circumflex calculation.
  • Markov modeling.
  • Logistic regression.
  • Decision tree analysis.
  • Random forest analysis.
  • Supervised and unsupervised machine learning.

As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.

Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.

Author's disclosure

I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.

As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.

In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.

I have not disclosed any information covered by the protective order in this article from my recently-resolved case.

I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:

  • Identificarea mesajelor relevante într-un grafic de conversație
  • Furnizarea de conținut pentru difuzare de către o platformă de mesagerie
  • Promovarea conținutului într-o platformă de mesagerie în timp real
  • Sistem și metodă pentru determinarea relevanței conținutului social
  • Sisteme și metode pentru stabilirea sau menținerea unei rețele sociale de încredere personalizate
  • Afișarea mesajelor relevante ale unui grafic de conversație
  • Infrastructura de cautare
  • Filtrarea vizibilității
  • Prioritizarea mesajelor într-o rețea de mesaje
  • Generator de grafice de aplicație
  • Utilizarea învățării profunde la scară în cronologia Twitter
  • Sisteme și metode anti-spam pe mai multe niveluri
  • Detectarea interacțiunilor scriptate sau anormale cu platforma de socializare
  • Cum luptă Twitter împotriva spamului și automatizării rău intenționate
  • Conturi suspendate în retrospectivă: o analiză a spam-ului Twitter
  • Analiză Twitter: 19,42% dintre conturile active sunt false sau spam

Opiniile exprimate în acest articol sunt cele ale autorului invitat și nu neapărat Search Engine Land. Autorii personalului sunt enumerați aici.