Factores de clasificación del algoritmo de Twitter: una guía definitiva

Publicado: 2022-07-01

Las patentes de Twitter y otras publicaciones revelan aspectos probables de cómo se promocionan los tweets en las líneas de tiempo de los usuarios.

Algunos de los factores de clasificación de la línea de tiempo de Twitter son muy sorprendentes, y ajustar su enfoque para twittear puede ayudarlo a obtener una mayor visibilidad de sus tweets.

En base a una serie de patentes clave y otras fuentes, he esbozado una serie de factores de clasificación probables para el algoritmo de Twitter en este documento.

La cronología de Twitter

Twitter comenzó a usar una línea de tiempo basada en algoritmos en 2016 cuando cambió de lo que era puramente una fuente cronológica de Tweets de todas las cuentas que uno seguía. El cambio clasificó las líneas de tiempo de los usuarios para permitirles ver "los mejores Tweets primero". Desde entonces, Twitter ha experimentado con variaciones de esto hasta el presente.

Un algoritmo basado en feeds para las redes sociales no es inusual. Facebook y otras plataformas de redes sociales han hecho lo mismo.

Las razones de este cambio a una mezcla algorítmica de Tweets de línea de tiempo son bastante claras. Una línea de tiempo cronológica puramente personal compuesta solo de las cuentas que uno ha seguido es muy aislada y, por lo tanto, limitada, mientras que la introducción de publicaciones de cuentas más allá de las conexiones directas de uno tiene el potencial de aumentar el tiempo que uno pasa en la plataforma, lo que a su vez aumenta la rigidez general. lo que a su vez aumenta el valor del servicio para los anunciantes y socios de datos.

Varias clasificaciones de interés de los usuarios y temas de interés asociados con sus cuentas y tweets permiten aún más el potencial para la orientación de anuncios en función de la demografía del usuario y los temas de contenido.

Los usuarios avanzados de Twitter pueden haber desarrollado algunas intuiciones sobre varios factores de Tweet que pueden resultar en una mayor visibilidad dentro del algoritmo.

Un recordatorio sobre las patentes

Las corporaciones registran patentes todo el tiempo para inventos que en realidad no usan en servicio vivo. Cuando trabajé en Verizon, escribí personalmente una serie de borradores de patentes para varios inventos que mis colegas y yo desarrollamos en el curso de nuestro trabajo, incluidas cosas que finalmente no usamos en la producción.

Entonces, el hecho de que Twitter tenga patentes que mencionan ideas sobre cómo podrían funcionar las cosas no garantiza en absoluto que así funcionen las cosas.

Además, las patentes suelen contener múltiples realizaciones, que son esencialmente varias formas en las que se podría implementar una invención: las patentes intentan describir los elementos clave de una invención de la manera más amplia posible para reivindicar cualquier posible uso que se le pueda atribuir.

Finalmente, al igual que con la famosa patente del algoritmo PageRank que fue la base del motor de búsqueda de Google, en los casos en que Twitter ha utilizado una realización de una de sus patentes, es muy probable que hayan cambiado y refinado las invenciones sencillas y amplias descritas. y seguiremos continuando con esto.

Incluso a pesar de toda esta vaguedad e incertidumbre típicas, encontré una serie de conceptos muy interesantes en las descripciones de las patentes de Twitter, muchos de los cuales es muy probable que se incorporen a su sistema.

Twitter y el aprendizaje profundo

Una advertencia adicional antes de continuar involucra cómo el algoritmo de la línea de tiempo de Twitter ha incorporado el aprendizaje profundo en su ADN, junto con varios niveles de supervisión humana, lo que lo convierte en una bestia que evoluciona con frecuencia, si no constantemente.

Esto significa que tanto los cambios grandes como los cambios incrementales pequeños pueden ocurrir y ocurrirán en la forma en que se realiza la clasificación del contenido. Además, este enfoque de aprendizaje automático puede conducir a condiciones en las que los propios ingenieros humanos de Twitter pueden no saber directamente con precisión por qué se muestra cierto contenido o supera a otro contenido debido a la abstracción de los modelos de clasificación producidos, similar a lo que describí cuando escribí sobre los modelos producidos por Google. ranking de calidad a través del aprendizaje automático.

A pesar de la complejidad y sofisticación de cómo funciona el algoritmo de Twitter, comprender los factores que probablemente entran en la caja negra aún puede revelar qué influye en las clasificaciones.

La línea de tiempo original de Twitter estaba compuesta simplemente por todos los Tweets de las cuentas que uno ha seguido desde la última visita, que se recopilaron y mostraron en orden cronológico inverso con los Tweets más recientes mostrados primero, y cada Tweet anterior mostrado uno tras otro a medida que se desplazaba. hacia abajo.

El algoritmo actual todavía se compone en gran parte de la misma lista cronológica inversa de Tweets, pero Twitter realiza una nueva clasificación para tratar de mostrar los Tweets más interesantes primero y ante todo de los Tweets recientes.

En segundo plano, a los Tweets se les ha asignado una puntuación de clasificación mediante un modelo de relevancia que predice qué tan interesante puede ser cada Tweet para usted, y este valor de puntuación dicta el orden de clasificación.

Los Tweets con puntajes más altos se muestran primero en la lista de la línea de tiempo, y el resto de los Tweets más recientes se muestran más abajo. Cabe destacar que intercalados en su línea de tiempo ahora también hay tweets de cuentas que no está siguiendo, así como algunos tweets publicitarios.

Gráfico de conexión de Twitter

En primer lugar, uno de los aspectos más influyentes de la línea de tiempo de Twitter es cómo Twitter ahora muestra los Tweets en función no solo de sus conexiones directas en este punto, sino esencialmente de cuál es su gráfico social único, al que Twitter se refiere en las patentes como " gráfico de conexión”.

El gráfico de conexiones representa las cuentas como nodos y las relaciones como líneas ("bordes") que conectan uno o más nodos. Una relación puede referirse a asociaciones entre cuentas de Twitter.

Por ejemplo, seguir, suscribirse (como a través del programa Super Follows de Twitter o, potencialmente, para la función de suscripción anunciada de Twitter para consultas de palabras clave), gustar, etiquetar, etc., todos estos crean relaciones.

Las relaciones en el gráfico de conexión de uno pueden ser unidireccionales (p. ej., te sigo) o bidireccionales (p. ej., ambos nos seguimos). Si te sigo, pero tú no me sigues, tendría una mayor expectativa de ver tus Tweets y Retweets en mi línea de tiempo, pero no necesariamente esperarías ver los míos.

Basándose simplemente en el gráfico de conexiones, es probable que vea Tweets y Retweets de aquellos a los que ha seguido, así como Tweets a los que les han gustado o respondido sus conexiones.

El algoritmo de Twitter ha ampliado los Tweets que puede ver más allá de las cuentas con las que ha interactuado directamente. Los Tweets que puede ver en su línea de tiempo ahora también incluyen Tweets de otros que están publicando sobre temas que ha seguido, Tweets similares en algunos aspectos a los Tweets que le han gustado anteriormente y Tweets basados ​​en temas que el algoritmo predice que le podrían gustar.

Incluso entre estos tipos ampliados de Tweets que puede recibir, se aplica el sistema de clasificación del algoritmo: no recibe todos los Tweets que coinciden con sus temas, Me gusta e intereses previstos; recibe una lista seleccionada a través del algoritmo de Twitter.

Clasificación de interés

Dentro del ADN de una serie de patentes y algoritmos de Twitter para clasificar Tweets se encuentra el concepto de "interés".

Es muy probable que esto se haya inspirado en una patente concedida a Yahoo en 2006 llamada "Clasificación de interés de los objetos de los medios", que describía los métodos de clasificación utilizados en el algoritmo de Flickr (el servicio dominante para compartir fotos en las redes sociales que posteriormente fue eclipsado por Instagram y Pinterest).

Ese algoritmo anterior para Flickr tiene muchas similitudes con las patentes contemporáneas de Twitter. Usó factores similares e incluso idénticos para calcular el interés. Estos incluyeron:

  • Información de ubicación.
  • Metadatos de contenido.
  • Cronología.
  • Patrones de acceso de usuarios.
  • Señales de interés (como etiquetar, comentar, marcar como favorito).

Uno podría describir fácilmente el algoritmo de Twitter como tomando el algoritmo de interés de Flickr, ampliando algunos de los factores involucrados, calculándolo a través de un proceso de aprendizaje automático más sofisticado, interpretando el contenido basado en el procesamiento del lenguaje natural (NLP) e incorporando una serie de variaciones adicionales para Permita la rapidez de presentación casi en tiempo real para una gran cantidad de usuarios simultáneamente.

Ranking de Twitter y spam

También es de interés enfocarse en los métodos usados ​​por Twitter para detectar spam, cuentas de usuario de spam y para degradar o suprimir Tweets de spam de la vista.

La vigilancia de la desinformación, otro contenido que viola las políticas y el acoso es igualmente intensa, pero eso no necesariamente converge tanto con las evaluaciones de clasificación.

Algunas de las patentes de detección de correo no deseado son interesantes porque veo que los usuarios a menudo se encallan en los procesos de supresión de correo no deseado de Twitter sin querer, y hay una serie de cosas que uno puede hacer que resultan en esfuerzos para promover e interactuar con la audiencia de Twitter. Twitter ha tenido que crear procesos de vigilancia agresivos para vigilar y eliminar el spam, e incluso los usuarios más destacados pueden entrar en conflicto con estos procesos de vez en cuando.

Por lo tanto, la comprensión de los factores de spam de Twitter puede ser importante, ya que pueden hacer que los tweets obtengan deducciones por el interés que tendrían, y esta pérdida en los puntajes de relevancia puede reducir la visibilidad y el poder de distribución de sus tweets.

Factores de clasificación de Twitter

Entonces, ¿cuáles son los factores mencionados en las patentes de Twitter para evaluar el "interés" y cuáles influyen en la forma en que Twitter califica los tweets para las clasificaciones?

Actualidad de la publicación del Tweet

Con más reciente siendo generalmente mucho más preferido. Aparte de palabras clave específicas y otros tipos de búsquedas, la mayoría de los Tweets serían de las últimas horas. También se pueden incluir algunos Tweets "en caso de que te lo hayas perdido", que parecen abarcar principalmente los últimos uno o dos días.

Imágenes o Vídeo

En general, en general, Google y otras plataformas han indicado que los usuarios tienden a preferir más las imágenes y los videos, por lo que un Tweet que contenga cualquiera de ellos podría obtener una puntuación más alta.

Twitter cita específicamente las tarjetas de imagen y video, que se refieren a los sitios web que implementaron Twitter Cards, lo que le permite a Twitter mostrar fácilmente fragmentos de vista previa más ricos cuando los Tweets contienen enlaces a páginas web con el marcado de la tarjeta.

Los tweets con enlaces que muestran imágenes y videos generalmente son más atractivos para los usuarios, pero puede haber una ventaja adicional para los tweets que se vinculan a las páginas con el marcado de la tarjeta para mostrar el contenido de la tarjeta.

Interacciones con el Tweet

Twitter cita Me gusta y Retweets, pero las métricas adicionales relacionadas con el Tweet también se aplicarían potencialmente aquí. Las interacciones incluyen:

  • Gustos
  • Retuits
  • Clics a enlaces que pueden estar en el Tweet
  • Clics a hashtags en el Tweet
  • Clics a las cuentas de Twitter mencionadas en el Tweet
  • Ampliación de detalles: hace clic para ver detalles sobre el Tweet, como ver a quién le gustó o lo retuiteó.
  • Nuevos seguidores: cuántas personas se desplazaron sobre el nombre de usuario y luego hicieron clic para seguir la cuenta.
  • Visitas al perfil: cuántas personas hicieron clic en el avatar o el nombre de usuario para visitar el perfil del usuario.
  • Acciones: cuántas veces se compartió el Tweet a través del botón Compartir.
  • Responde al tuit

impresiones

Si bien la mayoría de las impresiones provienen de la visualización del Tweet en las líneas de tiempo, algunas impresiones se derivan cuando los Tweets se comparten incrustándolos en páginas web. Es posible que esos números de impresiones también puedan afectar el puntaje de interés del Tweet.

Probabilidad de interacciones

Una patente de Twitter describe el cálculo de una puntuación para un tuit que representa la probabilidad de que los seguidores del autor del tuit en el sistema de mensajería social interactúen con el mensaje; la puntuación se basa en la desviación del nivel de interacción calculado entre el nivel de interacción observado de los seguidores de el Autor y el nivel de interacción esperado de los Seguidores.

Duración del tuit

Un tipo de clasificación es la longitud del texto contenido en el Tweet, que podría clasificarse como un valor numérico (p. ej., 103 caracteres) o podría designarse como una de varias categorías (p. ej., corto, medio o largo). .

De acuerdo con los temas relacionados con un Tweet, se puede evaluar si es más o menos interesante: para algunos temas, la brevedad puede ser más beneficiosa, y para otros temas, la duración media o larga puede hacer que el Tweet sea más interesante.

Interacciones del autor anterior

Las interacciones pasadas con el autor de un Tweet aumentarán la probabilidad (y el puntaje de clasificación en la línea de tiempo de uno) de que uno verá otros Tweets del mismo autor.

Estas métricas de interacción de gráficos sociales pueden incluir puntuación por el origen de la relación.

Por lo tanto, un historial anterior de respuesta, me gusta o retuiteo de los tuits de un autor, incluso si uno no sigue esa cuenta, puede aumentar la probabilidad de ver sus últimos tuits.

Existe la posibilidad de que las interacciones recientes con el autor de un Tweet también puedan influir en esto, por lo que si no ha interactuado con uno de sus Tweets durante mucho tiempo, la visibilidad potencial de sus Tweets más nuevos puede disminuir para usted.

En el contexto del algoritmo, "autor" y "cuenta" se usan esencialmente para significar lo mismo, por lo que los Tweets de una cuenta corporativa se tratan de la misma manera que los Tweets de un individuo.

Calificación de credibilidad del autor

Esta puntuación se puede calcular a partir de las relaciones e interacciones de un autor con otros usuarios.

El ejemplo dado en la patente es que un autor seguido por múltiples relatos prolíficos o de alto perfil tendría un puntaje de credibilidad alto.

Si bien un valor de calificación citado es "bajo", "medio" y "alto", la patente también sugiere una escala de valores de calificación del 1 al 10, y puede incluir un factor cualitativo y/o cuantitativo.

Supongo que un rango como 1 a 10 es mucho más probable. Parece probable que algunos de los valores de evaluación de correo no deseado se puedan usar para sustraerlos de una calificación de credibilidad del autor. Más información sobre posibles factores de evaluación de spam en la última parte de este artículo.

Relevancia del autor

Es posible que los autores evaluados como más relevantes para un tema en particular tengan un valor más alto de Relevancia del autor. Además, las menciones de un Autor pueden hacerlo más relevante en el contexto de los Tweets que lo mencionan.

Las patentes también hablan sobre la asociación de autores con temas, por lo que es posible que los autores que twittean sobre temas específicos con frecuencia, junto con buenas tasas de participación, se consideren más relevantes cuando sus tweets involucran ese tema.

Métricas de autor

Los tweets pueden clasificarse según las propiedades del autor. Estas métricas pueden influir en el interés relativo de los mensajes del autor. Dichas métricas de autor incluyen:

  • Ubicación del autor (como ciudad o país)
  • Edad (según la fecha de nacimiento que se puede proporcionar en los detalles de la cuenta)
  • Número de seguidores
  • Número de cuentas que sigue el autor
  • Relación entre el número de seguidores y las cuentas seguidas , ya que un mayor número de seguidores en comparación con los seguidos transmite una mayor popularidad junto con el número bruto de seguidores. Una proporción más cercana a 1 indicaría un quid pro quo siguiendo la filosofía por parte del Autor, haciendo menos posible inferir popularidad y dando una apariencia de popularidad artificial.
  • Número de tweets publicados por el autor por período de tiempo (por ejemplo, por día o por semana).
  • Antigüedad de la cuenta (meses desde que se abrió la cuenta, por ejemplo): las cuentas que se han creado recientemente tienen un peso mucho menor.
  • Confianza.

Temas

Los tweets se clasifican según los temas que involucran. Hay algunos algoritmos muy sofisticados involucrados en la clasificación de los Tweets.

Los usuarios de Twitter a menudo han seleccionado temas para asociarlos con sus cuentas y, obviamente, se le mostrarán Tweets populares de los temas que ha seleccionado. Pero, Twitter también crea automáticamente temas basados ​​en palabras clave que se encuentran en los Tweets.

En función de sus interacciones con los Tweets y las cuentas que sigue, Twitter también predice temas que probablemente le interesarían y le muestra algunos Tweets de esos temas a pesar de que no se haya suscrito formalmente a los temas.

Clasificación de frases

El sistema de Twitter es muy complejo y permite que los modelos de clasificación personalizados se apliquen potencialmente a los Tweets para temas particulares y cuando hay frases particulares presentes.

Twitter tiene un gran personal que trabaja para desarrollar modelos para "viajes de clientes" particulares, y esto parecería coincidir con las descripciones de patentes de cómo los editores podrían establecer reglas sobre publicaciones orientadas a temas y palabras clave o frases en publicaciones.

Por ejemplo, las publicaciones que contienen texto sobre "contratar ahora" o "saldrá en la televisión" pueden considerarse aburridas para un tema, mientras que frases como "fresco", "en oferta" o "solo hoy" pueden tener más peso, ya que podría predecirse que será más interesante.

Esto podría ser bastante difícil de atender, ya que existe un campo enorme de temas potenciales y ponderaciones personalizadas que podrían aplicarse.

Una publicación de trabajo reciente en Twitter para un diseñador de productos del personal, Customer Journey, describió cómo ayudaría el puesto:

“Ya sea que busque fanart de Ariana Grande, #herpetología o ciclismo extremo, todo sucede en Twitter. Nuestro equipo es responsable de ayudar a los nuevos miembros a navegar la diversa gama de conversaciones públicas que tienen lugar en Twitter y encontrar rápidamente un sentido de pertenencia…”

“Reúna información a partir de datos e investigaciones cualitativas, desarrolle hipótesis, esboce soluciones con prototipos y pruebe ideas con nuestro equipo de investigación y en experimentos”.

"Documentar modelos de interacción detallados y especificaciones de interfaz de usuario".

“Experiencia de diseño para aprendizaje automático, taxonomías ricas y/o gráficos de interés”.

Esta descripción suena muy similar a lo que se describe en la patente de Twitter para "Sistema y método para determinar la relevancia del contenido social" donde:

“Los editores pueden establecer reglas para clasificar ciertas frases como más o menos interesantes…”

“…un editor puede decidir que algunas frases y atributos son interesantes en todo el contenido, independientemente de la categoría del lugar que crea el contenido. Por ejemplo, la frase 'a la venta' o 'evento' puede ser interesante en todos los casos y se le puede aplicar un peso positivo”.

Una patente describe cómo a los tuits detectados con lenguaje comercial se les podría asignar una puntuación más baja que a los tuits que no tenían lenguaje comercial. (Por el contrario, tales ponderaciones podrían invertirse si el usuario realiza búsquedas que indican un interés en comprar algo, de modo que los Tweets que contienen lenguaje comercial puedan tener una mayor ponderación).

Hora del día

La hora del día se puede utilizar para influir en la relevancia. Por ejemplo, se podría implementar una regla para dar más peso a los Tweets que mencionan "Café" entre las 8:00 am y las 10:00 am, y/o los Tweets publicados por cafeterías.

Ubicaciones

Las patentes describen cómo las "referencias de lugares" en los tuits podrían invocar un mayor peso para los tuits sobre un lugar y/o para las cuentas asociadas con la referencia del lugar en comparación con otras cuentas que simplemente mencionan el lugar. Además, la proximidad geográfica entre la ubicación del dispositivo de un usuario y la ubicación asociada con elementos de contenido (el texto, la imagen, el video y/o el autor del Tweet) puede aumentar o disminuir la relevancia potencial.

Idioma

El idioma del Tweet se puede clasificar (p. ej., inglés, francés, etc.).

El idioma puede determinarse automáticamente utilizando varias herramientas automatizadas de evaluación del idioma.

Un Tweet en un idioma en particular sería de mayor interés para los hablantes del idioma y menos interesante para los demás.

Responder tuits

Los tuits se pueden clasificar en función de si son respuestas a tuits anteriores. Un Tweet que es una respuesta a un Tweet anterior puede considerarse menos interesante que un Tweet relacionado con un tema nuevo.

En una descripción de patente, el tema de un Tweet podría determinar si el Tweet se designará para que se muestre en otra cuenta o se incluya en los flujos de mensajes de otras cuentas.

Cuando está viendo su línea de tiempo, hay casos en los que algunas de las respuestas de un Tweet también se muestran con el Tweet principal, como cuando las cuentas que sigue publican los Tweets de respuesta. En la mayoría de los casos, los Tweets de respuesta solo se podrán ver cuando se hace clic para ver el hilo o cuando se hace clic en el Tweet para ver todas las respuestas.

Cuentas “benditas”

Este es un concepto extraño, que creo que podría no estar en producción.

Twitter describe las cuentas bendecidas como identificadas dentro del gráfico de una conversación en particular, donde el autor original en una conversación se consideraría "bendecido", y de las respuestas posteriores a la publicación original, cualquiera de las respuestas a las que responda posteriormente el bendita cuenta pasa a ser "bendita" también.

A los Tweets publicados por Blessed Accounts en la conversación se les otorgaría una mayor puntuación de relevancia.

Perfil del sitio web

Esto no se menciona en las patentes de Twitter, pero tiene demasiado sentido en el contexto de todos los demás factores que han mencionado como para dejarlo pasar.

Muchos de los principales sitios web de contenido suelen tener sus enlaces compartidos en Twitter, y Twitter podría crear fácilmente una puntuación de reputación/popularidad del perfil del sitio web que también podría influir en la clasificación de los Tweets cuando se publican enlaces al contenido de los sitios web.

Sitios de noticias, recursos de información, sitios de entretenimiento: todos estos podrían tener puntajes desarrollados a partir de los mismos factores utilizados para evaluar las cuentas de Twitter. Los tweets de los sitios web más apreciados y con los que se interactúa mejor podrían tener más peso que los sitios web relativamente desconocidos y con los que se interactúa menos.

Gorjeo verificado

Sí, si sospechaba que la insignia azul junto a los nombres de usuario transmite un trato preferencial, hay una palabrería específica en una de las patentes de Twitter que confirma que al menos han considerado esto.

Dado que las cuentas verificadas a menudo ya tienen varios otros indicadores de popularidad asociados con ellas, no es evidente si este factor está en uso o no. Los Tweets publicados por una cuenta Verificada pueden recibir una puntuación de relevancia más alta, lo que les permite aparecer más que los Tweets de cuentas no verificadas.

Aquí está la descripción de la patente:

“En una o más realizaciones de la invención, el módulo de conversación (120) incluye la funcionalidad para aplicar un filtro de relevancia para aumentar los puntajes de relevancia de una o más cuentas de creación del gráfico de conversación que se identifican en una lista blanca de cuentas verificadas. Por ejemplo, la lista blanca de cuentas verificadas puede ser una lista de cuentas de alto perfil que son susceptibles de suplantación de identidad. En este ejemplo, la plataforma de mensajería (100) verificaría las cuentas de celebridades y empresas para notificar a los usuarios de la plataforma de mensajería (100) que las cuentas son auténticas. En una o más realizaciones de la invención, el módulo de conversación (120) está configurado para aumentar las puntuaciones de relevancia de las cuentas de autoría verificadas en una cantidad/porcentaje predefinido”.

tiene tendencia

Esta es una marca binaria que indica si se ha identificado que el Tweet contiene un tema que era tendencia en el momento en que se transmitió el mensaje.

Género, orientación sexual e intereses detectados por la aplicación

Twitter puede usar la información del dispositivo móvil del titular de la cuenta para inferir el género del titular de la cuenta o inferir intereses en temas como noticias, deportes, entrenamiento con pesas y otros temas.

Algunos dispositivos móviles brindan información sobre otras aplicaciones cargadas en el teléfono con el fin de diagnosticar posibles conflictos de programación de aplicaciones. Por lo tanto, algunos Tweets que coincidan con su género, orientación sexual e intereses temáticos podrían recibir más puntos de interés simplemente en función de las inferencias realizadas desde las aplicaciones de su teléfono. (Ver: https://screenrant.com/android-apps-collecting-app-data/ )

Y más factores de clasificación

Twitter afirma que:

“Nuestra lista de características consideradas y sus variadas interacciones sigue creciendo, informando a nuestros modelos de patrones de comportamiento cada vez más matizados”.

Por lo tanto, es probable que esta lista de factores sea una subrepresentación de los factores que pueden estar usando, y su lista puede estar ampliándose.

También imagine que una combinación personalizada de algunos de los factores anteriores se puede aplicar como modelos para Tweets asociados con temas particulares, lo que otorga una gran complejidad potencial a las clasificaciones a través de métodos de aprendizaje automático. (Nuevamente, el aprendizaje automático aplicado para crear modelos de ponderación de clasificación personalizados para consultas o temas particulares es muy similar a los métodos que probablemente se usan con Google).

Twitter ha declarado que la puntuación de los Tweets ocurre cada vez que uno visita Twitter y cada vez que actualiza su línea de tiempo. Teniendo en cuenta algunos de los factores complejos involucrados, ¡eso es muy rápido!

Twitter utiliza pruebas A/B de ponderaciones de factores de clasificación y otras alteraciones de algoritmos, y determina si un cambio propuesto es una mejora en función de la participación y el tiempo de visualización/interacción con un Tweet. Esto se utiliza para entrenar modelos de clasificación.

La participación del aprendizaje automático en este proceso sugiere que se podrían producir modelos de clasificación para muchos escenarios específicos, y potencialmente específicos para temas y tipos de usuarios particulares. Una vez desarrollado, el modelo se puede probar y, si mejora el compromiso, se puede implementar rápidamente para todos los usuarios.

Cómo los especialistas en marketing pueden usar esta información

Hay muchas inferencias que se pueden extraer de la lista de posibles factores de clasificación y que los especialistas en marketing pueden utilizar para mejorar sus tácticas de tweet.

Es probable que una cuenta de Twitter que solo publique anuncios sobre sus productos e información promocional sobre su empresa no tenga tanta visibilidad como las cuentas que son más interactivas con su comunidad, porque las interacciones producen más señales de clasificación y beneficios potenciales.

Los expertos en redes sociales han recomendado durante mucho tiempo un enfoque de combinación de tipos de publicaciones en lugar de simplemente publicar una promoción autorreferencial; estas estrategias incluyen "La regla de los tercios", "La regla del 80/20" y otras.

Los factores de clasificación de Twitter probablemente respalden estas teorías, ya que es más probable que obtener más interacciones con un número de usuarios de Twitter aumente la visibilidad de una cuenta.

Por ejemplo, la cuenta de una gran empresa con muchos seguidores podría publicar una encuesta interesante para obtener consejos sobre qué características agregar a su producto. Los votos y comentarios publicados por los usuarios harán que sea mucho más probable que los encuestados vean la próxima publicación de la empresa debido a las interacciones recientes, y que la próxima publicación podría estar promocionando o anunciando algo nuevo. Además, es más probable que los seguidores de los encuestados vean la próxima publicación de la empresa, ya que Twitter parece tener en cuenta que los usuarios con intereses similares pueden estar más abiertos a ver contenido que coincida con sus intereses.

Además, los factores sugieren una serie de enfoques potencialmente beneficiosos.

Al publicar un Tweet promocionando un producto o haciendo un anuncio, la combinación de algo para obtener una respuesta de los propios seguidores podría ampliar fácilmente la exposición en la plataforma, ya que las respuestas de cada encuestado a su Tweet pueden aumentar las probabilidades de que sus seguidores directos puedan ver el Tweet original y su Tweet de respuesta de la conexión.

Aprovechar el aspecto del gráfico social del algoritmo de Twitter puede ayudar a aumentar el interés de sus Tweets y puede aumentar la exposición de sus Tweets para otros usuarios.

Los factores de spam pueden afectar negativamente la clasificación de los tweets

Los algoritmos de detección de spam pueden afectar negativamente la capacidad de clasificación de Tweets.

Por un lado, Twitter es muy rápido para suspender cuentas que envían spam descaradamente y, en los casos en que es obvio e inequívoco, uno puede esperar que la cuenta se cancele abruptamente, lo que hace que todos sus Tweets desaparezcan de los gráficos de conversación y las líneas de tiempo, y haciendo que el perfil de la cuenta ya no esté disponible para ver.

En otros casos en los que no está tan claro si una cuenta está enviando spam, los tweets de la cuenta podrían simplemente degradarse mediante la aplicación de puntajes de ponderación de rango negativos, o los tweets podrían bloquearse o suspenderse hasta que el titular de la cuenta tome una acción correctiva o verifica su identidad.

Por ejemplo, una cuenta de Twitter con un largo historial de buenos Tweets podría comenzar a publicar abruptamente anuncios de Viagra o enlaces a malware, como si una cuenta establecida fuera pirateada. Twitter podría suspender temporalmente la cuenta hasta que se tomaran medidas correctivas, como pasar una verificación de CAPTCHA o recibir un código de verificación a través del teléfono celular y cambiar las contraseñas. Otro ejemplo podría ser un nuevo usuario que accidentalmente pasa por encima de cierto umbral de seguimiento de demasiadas cuentas en un período de tiempo corto, o publica con demasiada frecuencia.

Twitter emplea una serie de métodos para detectar spam y dejarlo de lado para que los usuarios lo vean menos.

Gran parte de la detección automática se basa en la detección de una combinación de características del perfil de la cuenta, comportamientos de tuits de la cuenta y contenido que se encuentra en los tuits de la cuenta.

Twitter ha desarrollado una serie de "huellas dactilares" características del spam para realizar una detección rápida de patrones. Una patente de Twitter describe cómo:

"El spam se determina comparando las características de las cuentas de spam identificadas y creando un 'gráfico de similitud' que se puede comparar con otras cuentas sospechosas de spam".

Los tweets identificados como potencialmente spam podrían marcarse con un valor binario como "sí" o "no", y luego los tweets que están marcados pueden filtrarse fuera de las líneas de tiempo.

Es igualmente posible que haya una escala de spam, calculada a partir de múltiples factores, y una vez que un Tweet o una cuenta supere un umbral, sufra una degradación. Creo que vale la pena mencionarlos, ya que es posible que los usuarios de Twitter no entiendan las implicaciones de cómo usan la plataforma. Por ejemplo, publicar un Tweet demasiado agresivo podría tener un impacto negativo en los Tweets posteriores de una cuenta durante un período de tiempo. El comportamiento nervioso repetido podría resultar peor, como la eliminación completa de la cuenta, sin posibilidad de recuperación.

Agregaré algunos factores aquí que no se mencionan específicamente en las patentes de Twitter o en las publicaciones de blog porque Twitter no revela todos los factores de identificación de spam por razones obvias. Sin embargo, algunas características del correo no deseado y de las cuentas de correo no deseado parecen tan obvias que agrego algunas de mis observaciones personales o de fuentes de investigación reconocidas para proporcionar una comprensión más amplia de lo que puede ocasionar degradaciones de correo no deseado.

Factores de spam y otros factores de clasificación negativa

  • Los tuits que contienen un mensaje comercial publicado sin relación seguidor/seguido o en una relación unidireccional (el autor del tuit sigue a la cuenta que menciona pero la cuenta receptora no sigue al autor), pero no han tenido interacciones previas, empiezan a parecer sospechoso. Si esto se hace muchas veces con texto similar o idéntico, no pasará mucho tiempo antes de que se considere actividad de spam, especialmente para las cuentas más nuevas.
  • Antigüedad de la cuenta: donde la antigüedad muestra que la cuenta se ha configurado muy recientemente. (La investigación reciente de SparkToro sobre el spam de Twitter sugiere que la edad de la cuenta es de 90 días o menos).
  • Indicador NSFW de la cuenta: la cuenta tiene un indicador que indica que ha sido identificada por vincularse a sitios web documentados en una lista negra de sitios potencialmente ofensivos (como sitios que tienen pornografía, materiales explícitos, sangre, etc.).
  • Bandera ofensiva: se ha identificado que el Tweet contiene uno o más términos de una lista negra de términos ofensivos.
  • Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
  • Account Posting Frequent Copyright Infringement
  • Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
  • Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
  • Tweets containing offensive language might be allowed to erode their interestingness score.
  • Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
  • Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
  • Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
  • Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
  • Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
  • Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
  • High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
  • CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
  • Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
  • Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
  • Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
  • Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
  • Tweets Containing Affiliate Links – self explanatory.
  • Frequent Requests to Befriend Users in a Short Time Frame
  • Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
  • Accounts that Tweet Only URLs
  • Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
  • Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
  • Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
  • Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
  • Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
  • Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
  • Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
  • Profile Descriptions Matching Spammer Keywords/Patterns
  • Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
  • Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.

Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.

The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.

En conclusión

Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.

The AI components include:

  • Neural networks.
  • Natural language processing.
  • Circumflex calculation.
  • Markov modeling.
  • Logistic regression.
  • Decision tree analysis.
  • Random forest analysis.
  • Supervised and unsupervised machine learning.

As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.

Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.

Author's disclosure

I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.

As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.

In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.

I have not disclosed any information covered by the protective order in this article from my recently-resolved case.

I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:

  • Identificar mensajes relevantes en un gráfico de conversación
  • Suministro de contenido para su difusión por una plataforma de mensajería.
  • Promoción de contenido en una plataforma de mensajería en tiempo real
  • Sistema y método para determinar la relevancia del contenido social
  • Sistemas y métodos para establecer o mantener una red social de confianza personalizada
  • Mostrar mensajes relevantes de un gráfico de conversación
  • Infraestructura de búsqueda
  • Filtrado de visibilidad
  • Priorización de mensajes dentro de una red de mensajes
  • Generador de gráficos de aplicaciones
  • Uso del aprendizaje profundo a escala en las líneas de tiempo de Twitter
  • Sistemas y métodos antispam de varios niveles
  • Detección de interacciones programadas o anómalas con la plataforma de redes sociales
  • Cómo combate Twitter el spam y la automatización maliciosa
  • Cuentas suspendidas en retrospectiva: un análisis del spam de Twitter
  • Análisis de Twitter: el 19,42% de las cuentas activas son falsas o spam

Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.