Факторы ранжирования алгоритма Twitter: подробное руководство

Опубликовано: 2022-07-01

Патенты Twitter и другие публикации раскрывают вероятные аспекты того, как твиты продвигаются в лентах хронологии пользователей.

Некоторые из факторов ранжирования в Твиттере очень неожиданны, и корректировка вашего подхода к твитам может помочь вам повысить видимость ваших твитов.

Основываясь на ряде ключевых патентов и других источниках, я выделил здесь ряд возможных факторов ранжирования алгоритма Twitter.

Хронология Твиттера

Твиттер впервые начал использовать временную шкалу на основе алгоритма еще в 2016 году, когда он перешел от того, что было чисто хронологической лентой твитов со всех учетных записей, на которые вы подписаны. Изменение ранжировало временные шкалы пользователей, чтобы они могли сначала увидеть «лучшие твиты». С тех пор Twitter экспериментировал с вариациями этого до настоящего времени.

Алгоритм на основе каналов для социальных сетей не является чем-то необычным. Facebook и другие социальные сети сделали то же самое.

Причины этого перехода к алгоритмическому сочетанию твитов временной шкалы довольно ясны. Чисто личная, хронологическая временная шкала, состоящая только из учетных записей, на которые вы подписаны, очень разрознена и, следовательно, ограничена — в то время как введение сообщений из учетных записей, не связанных с вашими прямыми связями, может увеличить время, которое вы проводите на платформе, что, в свою очередь, увеличивает общую липкость, что, в свою очередь, повышает ценность услуги для рекламодателей и партнеров по обработке данных.

Различные классификации интересов пользователей и темы интересов, связанные с их учетными записями и твитами, дополнительно открывают возможности для таргетинга рекламы на основе демографических данных пользователей и тем контента.

У опытных пользователей Твиттера могло сложиться некоторое интуитивное представление о различных факторах твитов, которые могут привести к большей видимости в рамках алгоритма.

Напоминание о патентах

Корпорации все время регистрируют патенты на изобретения, которые они фактически не используют в реальных условиях. Когда я работал в Verizon, я лично написал ряд проектов патентов на различные изобретения, которые мы с коллегами разработали в ходе нашей работы, в том числе на то, что мы не использовали в производстве.

Таким образом, тот факт, что у Twitter есть патенты, в которых упоминаются идеи о том, как что-то может работать , вовсе не гарантирует, что все работает именно так.

Кроме того, патенты обычно содержат несколько вариантов осуществления, которые, по сути, представляют собой различные способы реализации изобретения — патенты пытаются максимально широко описать ключевые элементы изобретения, чтобы заявить о любом возможном использовании, которое может быть ему приписано.

Наконец, как и в случае со знаменитым патентом на алгоритм PageRank, который был основой поисковой системы Google, в тех случаях, когда Twitter использовал вариант одного из своих патентов, весьма вероятно, что они изменили и усовершенствовали описанные простые, широкие изобретения, и будет продолжать это делать.

Даже несмотря на всю эту типичную расплывчатость и неопределенность, я нашел ряд очень интересных концепций в описаниях патентов Twitter, многие из которых, скорее всего, будут включены в их систему.

Твиттер и глубокое обучение

Еще одно предостережение, прежде чем я продолжу, касается того, как алгоритм временной шкалы Twitter включил глубокое обучение в свою ДНК в сочетании с различными уровнями человеческого контроля, что делает его часто, если не постоянно, саморазвивающимся зверем.

Это означает, что как большие изменения, так и небольшие постепенные изменения могут и будут происходить в том, как он выполняет ранжирование контента. Кроме того, этот подход к машинному обучению может привести к условиям, когда собственные инженеры-люди Twitter могут не знать точно, почему какой-то контент отображается или имеет более высокий рейтинг, чем другой контент из-за абстракции создаваемых моделей ранжирования, подобно тому, что я описал, когда писал о моделях, созданных Google. рейтинг качества с помощью машинного обучения.

Несмотря на сложность и изощренность функционирования алгоритма Twitter, понимание факторов, которые, вероятно, попадают в черный ящик, все же может выявить, что влияет на ранжирование.

Первоначальная временная шкала Твиттера была просто составлена ​​из всех твитов из учетных записей, на которые пользователь подписан с момента последнего посещения, которые были собраны и отображены в обратном хронологическом порядке, причем самые последние твиты показывались первыми, а каждый более ранний твит показывался один за другим по мере прокрутки. вниз.

Текущий алгоритм по-прежнему в значительной степени состоит из того же списка твитов в обратном хронологическом порядке, но Twitter выполняет переранжирование, чтобы попытаться отобразить самые интересные твиты в первую очередь из последних твитов.

В фоновом режиме твитам присваивается оценка ранжирования с помощью модели релевантности, которая предсказывает, насколько интересным может быть для вас каждый твит, и это значение оценки определяет порядок ранжирования.

Твиты с наивысшими баллами отображаются первыми в списке на временной шкале, а остальные самые последние твиты отображаются ниже. Примечательно, что на вашей временной шкале теперь также есть твиты от аккаунтов, на которые вы не подписаны, а также несколько рекламных твитов.

График подключения Twitter

Прежде всего, одним из наиболее влиятельных аспектов временной шкалы Твиттера является то, как Твиттер теперь отображает твиты, основываясь не только на ваших прямых связях на данный момент, но, по сути, на вашем уникальном социальном графе, который Твиттер называет в патентах « граф соединения».

Граф соединений представляет учетные записи в виде узлов, а отношения — в виде линий («ребер»), соединяющих один или несколько узлов. Отношения могут относиться к ассоциациям между учетными записями Twitter.

Например, отслеживание, подписка (например, через программу Super Follows в Твиттере или, потенциально, на анонсированную функцию подписки Твиттера для запросов по ключевым словам), лайки, теги и т. д. — все это создает отношения.

Отношения в графе соединений могут быть однонаправленными (например, я следую за вами) или двунаправленными (например, мы оба следуем друг за другом). Если я подпишусь на вас, а вы не подпишитесь на меня, я буду больше ожидать, что ваши твиты и ретвиты появятся в моей хронике, но вы не обязательно ожидаете увидеть мои.

Просто основываясь на графике подключений, вы, вероятно, увидите твиты и ретвиты от тех, на кого вы подписаны, а также твиты, которые понравились вашим контактам или на которые они ответили.

Алгоритм Твиттера расширил твиты, которые вы можете видеть, за пределы тех учетных записей, с которыми вы напрямую взаимодействовали. Твиты, которые вы можете видеть на своей временной шкале, теперь также включают твиты от других, которые публикуют сообщения на темы, на которые вы подписаны, твиты, в некотором роде похожие на твиты, которые вам ранее понравились, и твиты, основанные на темах, которые, согласно алгоритму, могут вам понравиться.

Даже среди этих расширенных типов твитов, которые вы можете получить, применяется система ранжирования алгоритма — вы не получаете все твиты, соответствующие вашим темам, лайкам и прогнозируемым интересам — вы получаете список, составленный с помощью алгоритма Твиттера.

Рейтинг интересности

В основе ряда патентов Twitter и алгоритма ранжирования твитов лежит понятие «интересность».

Вполне вероятно, что это было вдохновлено патентом, выданным Yahoo в 2006 году под названием «Рейтинг медиа-объектов по интересам», в котором описывались методы ранжирования, используемые в алгоритме Flickr (доминирующей службы обмена фотографиями в социальных сетях, которую впоследствии затмили Instagram и Пинтерест).

Этот более ранний алгоритм для Flickr имеет много общего с современными патентами Twitter. Он использовал схожие и даже идентичные факторы для вычисления интересности. К ним относятся:

  • Информация о местоположении.
  • Метаданные контента.
  • Хронология.
  • Шаблоны доступа пользователей.
  • Сигналы заинтересованности (такие как теги, комментарии, добавление в избранное).

Алгоритм Twitter можно легко описать так: он берет алгоритм интереса Flickr, расширяет некоторые из задействованных факторов, вычисляет его с помощью более сложного процесса машинного обучения, интерпретирует контент на основе обработки естественного языка (NLP) и включает ряд дополнительных вариаций для обеспечить быстроту презентации практически в реальном времени для огромного числа пользователей одновременно.

Рейтинг Twitter и спам

Также интересно сосредоточиться на методах, используемых Twitter для обнаружения спама, спам-аккаунтов пользователей, а также для понижения или подавления спам-твитов из поля зрения.

Контроль за дезинформацией, другим контентом, нарушающим политику, и преследованием также является интенсивным, но это не обязательно так сильно совпадает с рейтинговыми оценками.

Некоторые из патентов на обнаружение спама интересны, потому что я вижу, как пользователи часто совершенно непреднамеренно сталкиваются с процессами подавления спама в Твиттере, и есть ряд вещей, которые можно сделать, чтобы свести на нет усилия по продвижению и взаимодействию с аудиторией Твиттера. Твиттеру пришлось создать агрессивные сторожевые процессы для контроля и удаления спама, и даже самые известные пользователи могут время от времени нарушать эти процессы.

Таким образом, понимание факторов спама в Твиттере может быть важным, поскольку они могут привести к тому, что чьи-то твиты будут получать вычеты из интереса, который они в противном случае имели бы, и эта потеря в оценках релевантности может уменьшить видимость и способность распространения ваших твитов.

Факторы ранжирования в Твиттере

Итак, какие факторы упоминаются в патентах Twitter для оценки «интереса» и какие факторы влияют на то, как Twitter оценивает твиты для ранжирования?

Давность публикации твита

Более поздние, как правило, гораздо более предпочтительны. Помимо определенных ключевых слов и других типов поиска, большинство твитов будут за последние несколько часов. Также могут быть включены некоторые твиты «на случай, если вы пропустили», которые, по-видимому, в основном относятся к последним дням или двум.

Изображения или видео

В целом Google и другие платформы указали, что пользователи, как правило, больше предпочитают изображения и видео, поэтому твит, содержащий любой из них, может получить более высокий балл.

Твиттер специально ссылается на карточки с изображениями и видео, которые относятся к веб-сайтам, на которых реализованы карточки Твиттера, что позволяет Твиттеру легко отображать более богатые фрагменты предварительного просмотра, когда твиты содержат ссылки на веб-страницы с разметкой карточки.

Твиты со ссылками, которые показывают изображения и видео, как правило, более привлекательны для пользователей, но могут быть дополнительные преимущества для твитов, ссылающихся на страницы с разметкой карточки для отображения содержимого карточки.

Взаимодействие с твитом

Твиттер ссылается на «Нравится» и «Ретвиты», но здесь также могут применяться дополнительные показатели, связанные с твитами. Взаимодействия включают:

  • Нравится
  • Ретвиты
  • Клики по ссылкам, которые могут быть в твите
  • Клики по хэштегам в твите
  • Клики на учетные записи Twitter, упомянутые в твите
  • Детали раскрываются — щелкните, чтобы просмотреть сведения о твите, например, чтобы узнать, кому он понравился или кто его ретвитнул.
  • Новые подписчики — сколько людей навели курсор на имя пользователя, а затем нажали, чтобы подписаться на учетную запись.
  • Посещения профиля — сколько людей нажали на аватар или имя пользователя, чтобы посетить профиль автора.
  • Поделиться — сколько раз твитом поделились с помощью кнопки «Поделиться».
  • Ответы на твит

Впечатления

Хотя большинство показов происходит от отображения твита на временной шкале, некоторые показы получаются, когда твиты публикуются путем встраивания в веб-страницы. Вполне возможно, что эти числа показов также могут повлиять на оценку интереса твита.

Вероятность взаимодействия

В одном патенте Твиттера описывается вычисление оценки для твита, показывающей, насколько вероятно, что подписчики автора твита в системе обмена социальными сообщениями будут взаимодействовать с сообщением, при этом оценка основана на расчетном отклонении уровня взаимодействия между наблюдаемым уровнем взаимодействия подписчиков Автор и ожидаемый уровень взаимодействия Подписчиков.

Длина твита

Одним из типов классификации является длина текста, содержащегося в твите, которая может быть классифицирована как числовое значение (например, 103 символа) или может быть обозначена как одна из нескольких категорий (например, короткая, средняя или длинная). .

В соответствии с темами, связанными с твитом, он может быть оценен как более или менее интересный: для некоторых тем краткий может быть более полезным, а для некоторых тем средний или длинный твит может сделать его более интересным.

Предыдущие взаимодействия с авторами

Прошлые взаимодействия с автором твита повысят вероятность (и ранжирование на временной шкале) того, что кто-то увидит другие твиты того же автора.

Эти показатели взаимодействия социального графа могут включать в себя оценку по происхождению отношений.

Таким образом, предыдущая история ответов, лайков или ретвитов на твиты автора, даже если кто-то не подписан на этот аккаунт, может увеличить вероятность того, что кто-то увидит его последние твиты.

Существует вероятность того, что недавнее взаимодействие с автором твита также может повлиять на это, поэтому, если вы не взаимодействовали с одним из его твитов в течение длительного времени, потенциальная видимость его новых твитов может уменьшиться для вас.

В контексте алгоритма «автор» и «учетная запись», по сути, используются для обозначения одного и того же, поэтому твиты с корпоративной учетной записи обрабатываются так же, как твиты от физического лица.

Рейтинг надежности автора

Эта оценка может быть рассчитана на основе отношений автора и взаимодействия с другими пользователями.

Пример, приведенный в патенте, заключается в том, что автор, за которым следуют несколько высококлассных или продуктивных учетных записей, будет иметь высокий балл доверия.

В то время как одно указанное значение оценки является «низким», «средним» и «высоким», в патенте также предлагается шкала значений оценки от 1 до 10, которая может включать качественный и/или количественный фактор.

Я предполагаю, что диапазон от 1 до 10 гораздо более вероятен. Кажется вероятным, что некоторые значения оценки спама можно использовать для вычитания из рейтинга надежности автора. Подробнее о потенциальных факторах оценки спама читайте в последней части этой статьи.

Релевантность автора

Возможно, что авторы, которые оцениваются как более релевантные для конкретной темы, могут иметь более высокое значение релевантности автора. Кроме того, упоминания автора могут сделать его более релевантным в контексте твитов, в которых он упоминается.

В патентах также говорится о привязке авторов к темам, поэтому вполне возможно, что авторы, которые часто публикуют твиты, затрагивающие определенные темы, наряду с хорошими показателями вовлеченности, могут считаться более релевантными, когда их твиты затрагивают эту тему.

Автор Метрики

Твиты могут быть классифицированы на основе свойств Автора. Эти показатели могут влиять на относительную интересность сообщений Автора. К таким авторским показателям относятся:

  • Местонахождение автора (например, город или страна)
  • Возраст (на основе даты рождения, которая может быть указана в деталях учетной записи)
  • Количество подписчиков
  • Количество учетных записей, на которые подписан автор
  • Соотношение количества подписчиков к аккаунтам , на которые подписаны, так как большее количество подписчиков по сравнению с количеством подписчиков означает большую популярность наряду с необработанным количеством подписчиков. Соотношение, близкое к 1, указывало бы на то, что автор придерживается философии «услуга за услугу», что делает менее вероятным вывод о популярности и создает видимость искусственной популярности.
  • Количество твитов, опубликованных автором за период времени (например, в день или в неделю).
  • Возраст учетной записи (например, количество месяцев с момента открытия учетной записи) — учетным записям, которые были созданы совсем недавно, присваивается гораздо меньший вес.
  • Доверять.

Темы

Твиты классифицируются в соответствии с темами, которые они затрагивают. Есть несколько очень сложных алгоритмов, используемых для классификации твитов.

Пользователи Твиттера часто выбирают темы, которые будут связаны с их учетными записями, и вам, очевидно, будут показаны популярные твиты из выбранных вами тем. Но Twitter также автоматически создает темы на основе ключевых слов, найденных в твитах.

Основываясь на вашем взаимодействии с твитами и учетными записями, на которые вы подписаны, Twitter также прогнозирует темы, которые могут вас заинтересовать, и показывает вам некоторые твиты из этих тем, несмотря на то, что вы официально не подписаны на темы.

Классификация фраз

Система Twitter очень сложна и позволяет потенциально применять пользовательские модели ранжирования к твитам для определенных тем и при наличии определенных фраз.

В Твиттере есть большой штат сотрудников, которые работают над разработкой моделей для конкретных «путешествий клиентов», и это, похоже, совпадает с патентными описаниями того, как редакторы могут устанавливать правила для тематических сообщений и ключевых слов или фраз в сообщениях.

Например, сообщения, содержащие текст о «найме сейчас» или «будут на телевидении», могут считаться скучными для темы, в то время как такие фразы, как «свежие», «в продаже» или «только сегодня», могут иметь больший вес, поскольку они можно было предположить, что он будет более интересным.

Это может быть довольно сложно удовлетворить, поскольку существует огромное количество потенциальных тем и пользовательских весов, которые можно применить.

В одной из недавних вакансий в Твиттере для штатного дизайнера продукта «Путь клиента» описывалось, как эта позиция может помочь:

«Ищете ли вы фан-арт Арианы Гранде, #герпетологию или экстремальный велоспорт, все это происходит в Твиттере. Наша команда отвечает за то, чтобы помочь новым участникам ориентироваться в разнообразных публичных обсуждениях, происходящих в Твиттере, и быстро находить чувство сопричастности…»

«Собирайте информацию на основе данных и качественных исследований, разрабатывайте гипотезы, набрасывайте решения с помощью прототипов и проверяйте идеи с помощью нашей исследовательской группы и в экспериментах».

«Документируйте подробные модели взаимодействия и спецификации пользовательского интерфейса».

«Опыт проектирования для машинного обучения, богатых таксономий и/или графиков интересов».

Это описание очень похоже на то, что описано в патенте Twitter на «Систему и метод определения релевантности социального контента», где:

«Редакторы могут устанавливать правила классификации определенных фраз как более или менее интересных…»

«…редактор может решить, что некоторые фразы и атрибуты интересны во всем контенте, независимо от категории места, которое является автором контента. Например, фразы «распродажа» или «событие» могут быть интересны во всех случаях, и к ним может быть применен положительный вес».

В одном патенте описывается, как твитам, в которых обнаружен коммерческий язык, может быть присвоен более низкий балл, чем твитам, не содержащим коммерческого языка. (Наоборот, такие веса могут быть изменены, если пользователь проводил поиск, указывающий на заинтересованность в покупке чего-либо, чтобы твитам, содержащим коммерческий язык, можно было присвоить более высокий вес.)

Время суток

Время суток может быть использовано для воздействия на релевантность. Например, можно внедрить правило, чтобы придать больший вес твитам, в которых упоминается «Кофе» с 8:00 до 10:00, и/или твитам, публикуемым кофейнями.

Места

Патенты описывают, как «ссылки на места» в твитах могут придавать больший вес твитам о месте и/или учетным записям, связанным со ссылкой на место, по сравнению с другими учетными записями, которые просто упоминают это место. Кроме того, географическая близость между местоположением устройства пользователя и местоположением, связанным с элементами контента (текст твита, изображение, видео и/или автор), может увеличить или уменьшить потенциальную релевантность.

Язык

Язык твита можно классифицировать (например, английский, французский и т. д.).

Язык может быть определен автоматически с использованием различных инструментов автоматизированной оценки языка.

Твит на определенном языке будет представлять больший интерес для носителей этого языка и меньший интерес для других.

Ответить на твиты

Твиты можно классифицировать на основе того, являются ли они ответами на предыдущие твиты. Твит, являющийся ответом на предыдущий твит, может быть сочтен менее интересным, чем твит, касающийся новой темы.

В описании одного патента тема твита может определять, будет ли твит предназначен для отображения в другой учетной записи или включен в потоки сообщений других учетных записей.

Когда вы просматриваете свою хронику, бывают случаи, когда ответы на некоторые твиты также отображаются вместе с основным твитом — например, когда твиты-ответы публикуются учетными записями, на которые вы подписаны. В большинстве случаев ответные твиты будут доступны для просмотра, только если щелкнуть, чтобы просмотреть цепочку, или щелкнуть твит, чтобы просмотреть все ответы.

«Благословенные» аккаунты

Это странная концепция, которая, я считаю, может не быть в производстве.

Твиттер описывает благословенные учетные записи как идентифицированные в графе определенного разговора, где первоначальный автор в разговоре будет считаться «благословенным», а из последующих ответов на исходный пост любые ответы, на которые впоследствии отвечает благословленный аккаунт также становится «благословенным».

Твиты, опубликованные Blessed Accounts в переписке, получат повышенные баллы релевантности.

Профиль веб-сайта

Это не упоминается в патентах Twitter, но имеет слишком много смысла в контексте всех других факторов, которые они упомянули, чтобы их упустить.

Многие крупные веб-сайты с контентом часто публикуют свои ссылки в Твиттере, и Твиттер может легко создать рейтинг репутации / популярности профиля веб-сайта, который также может учитываться в рейтинге твитов, когда публикуются ссылки на контент на веб-сайтах.

Новостные сайты, информационные ресурсы, развлекательные сайты — все они могут иметь оценки, основанные на тех же факторах, которые используются для оценки учетных записей Twitter. Твиты с веб-сайтов, которые больше нравятся и с которыми лучше взаимодействуют, могут иметь больший вес, чем относительно неизвестные и менее взаимодействующие веб-сайты.

Твиттер проверен

Да, если вы подозреваете, что синий значок рядом с именами пользователей означает привилегированное отношение, в одном из патентов Twitter есть конкретная формулировка, которая подтверждает, что они, по крайней мере, рассматривали это.

Поскольку проверенные учетные записи часто уже имеют различные другие связанные с ними индикаторы популярности, не совсем очевидно, используется ли этот фактор или нет. Твиты, опубликованные проверенной учетной записью, могут получить более высокий балл релевантности, что позволит им появляться чаще, чем твиты непроверенных учетных записей.

Вот описание патента:

«В одном или нескольких вариантах осуществления изобретения модуль диалога (120) включает в себя функциональные возможности для применения фильтра релевантности для увеличения показателей релевантности одной или нескольких авторских учетных записей графа диалогов, которые указаны в белом списке проверенных учетных записей. Например, белый список проверенных учетных записей может представлять собой список учетных записей, являющихся высокопоставленными учетными записями, которые могут быть выданы за другое лицо. В этом примере учетные записи знаменитостей и предприятий будут проверяться платформой (100) обмена сообщениями, чтобы уведомить пользователей платформы (100) обмена сообщениями о том, что учетные записи являются подлинными. В одном или нескольких вариантах осуществления изобретения модуль диалога (120) сконфигурирован для увеличения показателей релевантности проверенных авторских учетных записей на заранее определенную сумму/процент».

Имеет тенденцию

Это двоичный флаг, указывающий, был ли твит идентифицирован как содержащий тему, которая была в тренде во время трансляции сообщения.

Приложение определило пол, сексуальную ориентацию и интересы

Твиттер может использовать информацию о мобильном устройстве владельца учетной записи для определения пола владельца учетной записи или интересов в таких темах, как новости, спорт, силовые тренировки и других темах.

Некоторые мобильные устройства предоставляют информацию о других приложениях, загруженных на телефон, для диагностики потенциальных конфликтов программирования приложений. Таким образом, некоторые твиты, соответствующие вашему полу, сексуальной ориентации и тематическим интересам, могут получить больше баллов интереса просто на основе выводов, сделанных с помощью приложений вашего телефона. (См.: https://screenrant.com/android-apps-collecting-app-data/)

И другие факторы ранжирования

Твиттер заявляет, что:

«Наш список учитываемых функций и их разнообразных взаимодействий продолжает расти, информируя наши модели о все более тонких моделях поведения».

Таким образом, этот список факторов, вероятно, является чем-то вроде недостаточного представления факторов, которые они могут использовать, и их список может расширяться.

Также представьте, что нестандартная комбинация некоторых из вышеперечисленных факторов может применяться в качестве моделей для твитов, связанных с определенными темами, что потенциально усложняет ранжирование с помощью методов машинного обучения. (Опять же, машинное обучение, применяемое для создания моделей ранжирования, адаптированных к конкретным запросам или темам, очень похоже на методы, которые, вероятно, используются в Google.)

Твиттер заявил, что оценка твитов происходит каждый раз, когда кто-то посещает Твиттер, и каждый раз, когда кто-то обновляет свою временную шкалу. Учитывая некоторые сложные факторы, это очень быстро!

Твиттер использует A/B-тестирование взвешивания факторов ранжирования и другие изменения алгоритма и определяет, является ли предлагаемое изменение улучшением, на основе вовлеченности и времени просмотра/взаимодействия с твитом. Это используется для обучения моделей ранжирования.

Участие машинного обучения в этом процессе предполагает, что модели ранжирования могут быть созданы для многих конкретных сценариев и потенциально специфичны для определенных тем и типов пользователей. После разработки модель можно протестировать, и, если она улучшит взаимодействие, ее можно будет быстро развернуть для всех пользователей.

Как маркетологи могут использовать эту информацию

Из списка потенциальных факторов ранжирования можно сделать множество выводов, которые маркетологи могут использовать для улучшения своей тактики твитинга.

Учетная запись Twitter, которая публикует только объявления о своих продуктах и ​​рекламную информацию о своей компании, скорее всего, не будет иметь такой заметности, как учетные записи, которые более интерактивны со своим сообществом, потому что взаимодействия производят больше сигналов ранжирования и потенциальных преимуществ.

Эксперты по социальным сетям уже давно рекомендуют смешивать типы постов, а не просто публиковать самореферентную рекламу — эти стратегии включают «Правило третей», «Правило 80/20» и другие.

Факторы ранжирования в Твиттере, вероятно, подтверждают эти теории, поскольку увеличение количества взаимодействий с большим количеством пользователей Твиттера, скорее всего, повысит видимость учетной записи.

Например, учетная запись крупной компании с большим количеством подписчиков может опубликовать интересный опрос, чтобы получить совет о том, какие функции добавить в свой продукт. Голоса и комментарии, размещенные пользователями, сделают так, что респонденты с гораздо большей вероятностью увидят следующую публикацию компании из-за недавних взаимодействий, и эта следующая публикация может продвигать или объявлять что-то новое. И подписчики респондентов также могут с большей вероятностью увидеть следующую публикацию компании, поскольку Twitter, похоже, учитывает, что пользователи со схожими интересами могут быть более открыты для просмотра контента, соответствующего их интересам.

Кроме того, факторы предполагают ряд потенциально полезных подходов.

При публикации твита, рекламирующего продукт или делающего объявление, объединение чего-либо для получения ответа от своих подписчиков может легко расширить доступ к платформе, поскольку ответы каждого респондента на ваш твит могут увеличить шансы того, что их непосредственные подписчики увидят исходный твит и их ответ подключения Tweet.

Использование аспекта социального графа алгоритма Twitter может помочь повысить интересность ваших твитов и повысить доступность ваших твитов для других пользователей.

Факторы спама могут негативно повлиять на рейтинг твитов

Алгоритмы обнаружения спама могут негативно повлиять на ранжирование твитов.

Во-первых, Твиттер очень быстро блокирует учетные записи, которые явно рассылают спам, и в случаях, когда это очевидно и недвусмысленно, можно ожидать, что учетная запись будет удалена внезапно, в результате чего все ее твиты исчезнут из графиков разговоров и временных шкал, и в результате чего профиль учетной записи больше не доступен для просмотра.

В других случаях, когда не так ясно, является ли учетная запись спамом, твиты учетной записи могут быть просто понижены в должности путем применения отрицательных ранговых весовых коэффициентов, или твиты могут быть заблокированы или приостановлены до тех пор, пока или если владелец учетной записи не предпримет корректирующие действия или проверяет их личность.

Например, учетная запись Twitter с долгой историей хороших твитов может внезапно начать публиковать рекламу виагры или ссылки на вредоносное ПО, например, если существующая учетная запись была взломана. Твиттер может временно приостановить действие учетной записи до тех пор, пока не будут предприняты корректирующие действия, такие как прохождение проверки CAPTCHA или получение кода подтверждения по мобильному телефону и смена паролей. Другим примером может быть новый пользователь, который случайно превышает некоторый порог подписки на слишком много учетных записей в течение короткого периода времени или слишком часто публикует сообщения.

Твиттер использует ряд методов для обнаружения спама и отсеивания его, чтобы пользователи меньше его видели.

Большая часть автоматического обнаружения основана на обнаружении комбинации характеристик профиля учетной записи, поведения учетной записи в Твиттере и контента, найденного в твитах учетной записи.

Twitter разработал ряд характерных «отпечатков пальцев» спама, чтобы быстро обнаруживать шаблоны. Один патент Twitter описывает, как:

«Спам определяется путем сравнения характеристик идентифицированных спам-аккаунтов и построения «графика сходства», который можно сравнить с другими аккаунтами, подозреваемыми в спаме».

Твиты, идентифицированные как потенциально содержащие спам, могут быть помечены двоичным значением, например «да» или «нет», а затем отмеченные твиты могут быть отфильтрованы из временных шкал.

В равной степени возможно наличие шкалы спама, рассчитанной на основе множества факторов, и как только твит или учетная запись превысит пороговое значение, они будут понижены в должности. Я думаю, стоит упомянуть об этом, поскольку пользователи Twitter могут не понимать последствия использования платформы. Например, публикация одного чрезмерно агрессивного твита может негативно повлиять на последующие твиты учетной записи в течение некоторого периода времени. Повторяющееся резкое поведение может привести к худшему, например, к полному удалению учетной записи без возможности восстановления.

Я добавлю сюда несколько факторов, которые специально не упоминаются в патентах Твиттера или сообщениях в блогах, потому что Твиттер не раскрывает все факторы идентификации спама по очевидным причинам. Но некоторые характеристики спама и спам-аккаунтов кажутся настолько очевидными, что я добавляю некоторые из личных наблюдений или из авторитетных исследовательских источников, чтобы обеспечить более широкое понимание того, что может привести к понижению рейтинга из-за спама.

Факторы спама и другие негативные факторы ранжирования

  • Твиты, содержащие коммерческое сообщение, размещенное без отношений подписчик/подписчик или в однонаправленных отношениях (автор твита подписан на учетную запись, которую он упоминает, но принимающая учетная запись не подписана на автора), но они не имели предыдущих взаимодействий, начинают казаться подозрительный. Если это делается много раз с похожим или идентичным текстом, это не займет много времени, прежде чем это будет считаться спамом, особенно для новых учетных записей.
  • Возраст учетной записи — где возраст показывает, что учетная запись была создана совсем недавно. (Недавнее исследование спама в Твиттере, проведенное SparkToro, предполагает, что возраст учетной записи составляет 90 дней или меньше.)
  • Флаг NSFW учетной записи — учетная запись имеет флажок, указывающий, что она была идентифицирована для ссылки на веб-сайты, задокументированные в черном списке потенциально оскорбительных сайтов (например, сайты с порнографией, откровенными материалами, кровью и т. д.).
  • Оскорбительный флаг — твит был идентифицирован как содержащий один или несколько терминов из черного списка оскорбительных терминов.
  • Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
  • Account Posting Frequent Copyright Infringement
  • Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
  • Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
  • Tweets containing offensive language might be allowed to erode their interestingness score.
  • Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
  • Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
  • Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
  • Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
  • Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
  • Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
  • High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
  • CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
  • Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
  • Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
  • Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
  • Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
  • Tweets Containing Affiliate Links – self explanatory.
  • Frequent Requests to Befriend Users in a Short Time Frame
  • Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
  • Accounts that Tweet Only URLs
  • Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
  • Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
  • Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
  • Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
  • Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
  • Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
  • Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
  • Profile Descriptions Matching Spammer Keywords/Patterns
  • Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
  • Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.

Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.

The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.

В заключение

Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.

The AI components include:

  • Neural networks.
  • Natural language processing.
  • Circumflex calculation.
  • Markov modeling.
  • Logistic regression.
  • Decision tree analysis.
  • Random forest analysis.
  • Supervised and unsupervised machine learning.

As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.

Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.

Author's disclosure

I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.

As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.

In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.

I have not disclosed any information covered by the protective order in this article from my recently-resolved case.

I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:

  • Идентификация релевантных сообщений в графе разговоров
  • Предоставление контента для трансляции платформой обмена сообщениями
  • Продвижение контента в платформе обмена сообщениями в реальном времени
  • Система и метод определения релевантности социального контента
  • Системы и способы создания или поддержания персонализированной доверенной социальной сети
  • Отображение релевантных сообщений графа разговоров
  • Инфраструктура поиска
  • Фильтрация видимости
  • Приоритизация сообщений в сети обмена сообщениями
  • Построитель графов приложений
  • Использование глубокого обучения в масштабе в Хронологии Twitter
  • Многоуровневые системы и методы защиты от спама
  • Обнаружение сценариев или иных аномальных взаимодействий с платформой социальных сетей.
  • Как Twitter борется со спамом и вредоносными программами
  • Заблокированные учетные записи в ретроспективе: анализ спама в Твиттере
  • Анализ Twitter: 19,42% активных аккаунтов являются поддельными или спамовыми

Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.