Twitter的算法排名因素:权威指南
已发表: 2022-07-01Twitter 专利和其他出版物揭示了推文如何在用户的时间线提要中得到推广的可能方面。
Twitter 的一些时间线排名因素非常令人惊讶,调整你的推文方法可能会帮助你获得更大的推文知名度。
基于一些关键专利和其他来源,我在这里概述了 Twitter 算法的一些可能的排名因素。
推特时间线
Twitter 早在 2016 年就开始使用基于算法的时间线,当时它从一个纯粹按时间顺序排列的所有帐户的推文转换。 这一变化对用户的时间线进行了排序,以使他们能够“首先看到最好的推文”。 直到现在,Twitter 一直在试验这种变化。
用于社交媒体的基于提要的算法并不罕见。 Facebook 和其他社交媒体平台也这样做了。
对时间线推文的算法组合进行这种更改的原因非常清楚。 仅由一个人关注的帐户组成的纯粹个人的、按时间顺序排列的时间线非常孤立,因此受到限制——而从一个人直接联系之外的帐户引入帖子有可能增加一个人在平台上花费的时间,这反过来又增加了整体粘性,这反过来又增加了服务对广告商和数据合作伙伴的价值。
用户的各种兴趣分类以及与他们的账户和推文相关联的兴趣主题进一步实现了基于用户人口统计和内容主题的广告定位的潜力。
Twitter 高级用户可能已经对各种 Tweet 因素产生了一些直觉,这些因素可以提高算法的可见性。
关于专利的提醒
公司一直在为他们实际上并没有在实际服务中使用的发明注册专利。 当我在 Verizon 工作时,我亲自为我和我的同事在工作过程中开发的各种发明写了许多专利草案——包括我们最终没有在生产中使用的东西。
因此,Twitter 拥有提及事物如何运作的想法的专利这一事实并不能保证事情就是这样运作的。
此外,专利通常包含多个实施例,这些实施例本质上是可以实施发明的各种方式——专利试图尽可能广泛地描述一项发明的关键要素,以便对任何可能归因于该发明的用途提出权利要求。
最后,就像作为谷歌搜索引擎基础的著名 PageRank 算法专利一样,在 Twitter 使用他们的一项专利的实施例的情况下,他们很可能已经改变和改进了所描述的简单、广泛的发明,并将继续这样做。
尽管存在所有这些典型的模糊性和不确定性,但我在 Twitter 专利描述中发现了许多非常有趣的概念,其中许多很可能被纳入他们的系统中。
Twitter 和深度学习
在我继续之前,还有一个警告涉及 Twitter 的时间线算法如何将深度学习融入其 DNA 中,再加上各种级别的人工监督,使其成为一种经常(如果不是不断地)自我进化的野兽。
这意味着无论是大的变化还是小的、增量的变化,都可以并且将会发生在它如何执行内容排名方面。 此外,这种机器学习方法可能会导致 Twitter 自己的人类工程师可能无法直接知道为什么显示某些内容或由于生成的排名模型的抽象而高于其他内容的原因,类似于我在撰写 Google 生成的模型时所描述的情况。通过机器学习进行质量排名。
尽管 Twitter 算法的运作方式非常复杂和复杂,但了解可能进入黑匣子的因素仍然可以揭示影响排名的因素。
Twitter的原始时间线只是由一个人自上次访问以来关注的所有推文组成,这些推文被收集并按时间倒序显示,最近的推文首先显示,每个较早的推文在滚动时一个接一个地显示向下。
当前的算法仍然主要由相同的按时间倒序排列的推文列表组成,但 Twitter 进行了重新排名,以尝试首先显示最近推文中最有趣的推文。
在后台,推文已通过相关性模型分配了一个排名分数,该模型预测每条推文对你来说可能有多有趣,这个分数值决定了排名顺序。
得分最高的推文首先显示在您的时间线列表中,其余最新推文显示在下方。 值得注意的是,现在穿插在您的时间线中的还有来自您未关注的帐户的推文,以及一些广告推文。
Twitter的连接图
首先,推特时间线最有影响力的方面之一是推特现在如何显示推文,不仅基于你此时的直接联系,而且本质上是你独特的社交图谱,推特在专利中将其称为“连接图”。
连接图将账户表示为节点,将关系表示为连接一个或多个节点的线(“边”)。 关系可以指 Twitter 帐户之间的关联。
例如,关注、订阅(例如通过 Twitter 的 Super Follows 计划,或者可能通过 Twitter 宣布的关键字查询订阅功能)、喜欢、标记等——所有这些都会建立关系。
一个人的连接图中的关系可能是单向的(例如,我关注你)或双向的(例如,我们都互相关注)。 如果我关注你,但你不关注我,我会更期待看到你的推文和转推出现在我的时间线上,但你不一定希望看到我的。
仅基于连接图,您可能会看到来自您关注的人的推文和转推,以及您的连接点赞或回复的推文。
Twitter 算法扩展了您可能看到的推文,超出了您直接与之交互的那些帐户。 你现在可能在时间线中看到的推文还包括其他人发布的关于你关注的主题的推文、在某些方面与你之前喜欢的推文相似的推文,以及基于算法预测你可能喜欢的主题的推文。
即使在你可能获得的这些扩展类型的推文中,算法的排名系统也适用——你不会收到与你的主题、喜欢和预测兴趣相匹配的所有推文——你会收到一个通过 Twitter 算法策划的列表。
趣味性排名
在推特的许多专利和推文排名算法的 DNA 中,都包含了“趣味性”的概念。
这很可能是受到 2006 年授予雅虎的一项名为“媒体对象的兴趣度排名”的专利的启发,该专利描述了 Flickr(主要的社交媒体照片共享服务,后来被 Instagram 和品脱)。
Flickr 的早期算法与 Twitter 的当代专利有很多相似之处。 它使用相似甚至相同的因素来计算兴趣度。 其中包括:
- 位置信息。
- 内容元数据。
- 年表。
- 用户访问模式。
- 感兴趣的信号(例如标记、评论、收藏)。
人们可以很容易地将 Twitter 的算法描述为采用 Flickr 的趣味性算法,扩展其中涉及的一些因素,通过更复杂的机器学习过程对其进行计算,基于自然语言处理 (NLP) 解释内容,并结合一些额外的变体为大量用户同时提供近乎实时的快速演示。
Twitter排名和垃圾邮件
关注 Twitter 用于检测垃圾邮件、垃圾邮件用户帐户以及将垃圾邮件推文从视图中降级或抑制的方法也很有趣。
对虚假信息、其他违反政策的内容和骚扰的监管同样很严格,但这并不一定与排名评估有那么多的融合。
一些垃圾邮件检测专利很有趣,因为我看到用户经常无意中搁置 Twitter 的垃圾邮件抑制过程,并且有很多事情可能会导致推特推广和与 Twitter 受众互动的沙包努力。 Twitter 不得不建立积极的监督程序来监管和删除垃圾邮件,即使是最杰出的用户也可能不时与这些程序发生冲突。
因此,了解 Twitter 的垃圾邮件因素可能很重要,因为它们可能会导致一个人的推文从原本应该具有的趣味性中扣除,而相关性分数的这种损失会降低你的推文的可见性和分发能力。
Twitter排名因素
那么,推特专利中提到的评估“兴趣”的因素有哪些,哪些因素会影响推特对推文的排名?
推文发布的新近度
最近通常更受欢迎。 除了特定的关键字和其他类型的搜索之外,大多数推文都来自过去几个小时。 一些“以防万一你错过了”的推文也可能包括在内,这些推文似乎主要在最后一两天发生。
图片或视频
一般来说,一般来说,谷歌和其他平台已经表明用户倾向于更喜欢图像和视频媒体,因此包含两者的推文可能会获得更高的分数。
Twitter 专门引用了图像和视频卡,指的是已经实施 Twitter Cards 的网站,当 Tweets 包含指向带有卡片标记的网页的链接时,这使得 Twitter 能够轻松地显示更丰富的预览片段。
带有显示图像和视频的链接的推文通常对用户更具吸引力,但推文链接到带有卡片标记的页面以显示卡片内容可能还有一个额外的优势
与推文的互动
Twitter 引用了 Likes 和 Retweets,但与 Tweet 相关的其他指标也可能适用于此。 互动包括:
- 喜欢
- 转推
- 点击可能在推文中的链接
- 点击推文中的标签
- 点击推文中提到的 Twitter 帐户
- 详细信息展开 - 单击以查看有关推文的详细信息,例如查看谁喜欢它或转发它。
- 新关注 – 有多少人将鼠标悬停在用户名上,然后点击关注该帐户。
- 个人资料访问 – 有多少人点击头像或用户名访问发帖人的个人资料。
- 分享 – 通过分享按钮分享推文的次数。
- 回复推文
展示次数
虽然大多数印象来自时间轴中推文的显示,但有些印象是通过嵌入网页来共享推文时获得的。 这些印象数也可能会影响推文的趣味性得分。
相互作用的可能性
一项 Twitter 专利描述了计算推文的分数,表示社交消息系统中推文作者的关注者与消息交互的可能性有多大,该分数基于计算出的与观察到的关注者的交互级别之间的交互级别偏差作者和关注者的预期交互级别。
推文长度
一种分类是推文中包含的文本长度,可以分类为数值(例如 103 个字符),也可以指定为几个类别之一(例如,短、中或长) .
根据推文所涉及的主题,它可能被评估为或多或少有趣——对于某些主题,短的可能更有益,而对于其他一些主题,中等或长的长度可能会使推文更有趣。
以前的作者互动
过去与推文作者的互动将增加人们看到同一作者的其他推文的可能性(以及在一个人的时间线上的排名得分)。
这些社交图交互指标可以包括按关系来源进行的评分。
因此,过去回复、喜欢或转发作者推文的历史,即使一个人没有关注该帐户,也会增加人们看到他们最新推文的可能性。
一个人最近与推文作者的互动也可能会影响到这一点,因此,如果你很长时间没有与他们的推文互动,他们新推文的潜在知名度可能会降低。
在算法的上下文中,“作者”和“帐户”本质上是指相同的东西,因此来自公司帐户的推文与来自个人的推文被视为相同。
作者可信度等级
这个分数可以通过作者与其他用户的关系和交互来计算。
专利中给出的例子是,一个作者跟随多个高知名度或多产的账户将具有很高的可信度得分。
虽然引用的一个评级值是“低”、“中”和“高”,但该专利还提出了一个从 1 到 10 的评级值范围,它可以包括定性和/或定量因素。
我猜想像 1 到 10 这样的范围更有可能。 似乎某些垃圾邮件评估值可用于从作者可信度评级中减去。 本文后半部分将详细介绍潜在的垃圾邮件评估因素。
作者相关性
被评估为与特定主题更相关的作者可能具有更高的作者相关性值。 此外,提及作者可能会使它们在提及他们的推文中更具相关性。
这些专利还谈到了将作者与主题相关联,因此当推文涉及该主题时,经常发推文涉及特定主题以及良好参与率的作者可能被认为具有更高的相关性。
作者指标
推文可以根据作者的属性进行分类。 这些指标可能会影响作者信息的相对趣味性。 此类作者指标包括:
- 作者的位置(例如城市或国家/地区)
- 年龄(基于可在帐户详细信息中提供的出生日期)
- 追随者人数
- 作者关注的帐户数
- 追随者数量与被关注账户的比率,因为与关注者相比,更多的追随者传达了更大的受欢迎程度以及原始追随者数量。 接近 1 的比率将表明作者遵循哲学的交换条件,从而不太可能推断受欢迎程度并假装受欢迎。
- 每个时间段作者发布的推文数(例如:每天或每周)。
- 账户年龄(例如,开户后的几个月)——最近建立的账户的权重要低得多。
- 相信。
话题
推文根据它们涉及的主题进行分类。 推文分类涉及一些非常复杂的算法。
Twitter 用户通常会选择要与他们的帐户相关联的主题,很明显,您会看到来自您选择的主题的热门推文。 但是,Twitter 还会根据推文中的关键字自动创建主题。
根据你与推文的互动以及你关注的账户,Twitter 还会预测你可能感兴趣的主题,并向你展示来自这些主题的一些推文,尽管你没有正式订阅这些主题。
短语分类
Twitter 的系统非常复杂,并且允许自定义排名模型潜在地应用于特定主题的推文以及出现特定短语时。
Twitter 拥有大量员工,致力于为特定的“客户旅程”开发模型,这似乎与关于编辑如何针对主题帖子以及帖子中的关键字或短语设置规则的专利描述相吻合。
例如,包含“现在招聘”或“将在电视上”等文字的帖子可能会被认为对某个主题很无聊,而“新鲜”、“特价”或“仅限今天”等短语可能会被赋予更大的权重,因为它们预计会更有趣。
这可能很难迎合,因为有大量潜在主题和可以应用的自定义权重。
最近在 Twitter 上发布了一个员工产品设计师的职位,客户旅程描述了该职位将如何提供帮助:
“无论你是在寻找 Ariana Grande fanart、#herpetology 还是极限独轮车,这一切都发生在 Twitter 上。 我们的团队负责帮助新成员驾驭 Twitter 上发生的各种公开对话,并快速找到归属感……”
“从数据和定性研究中收集见解,提出假设,用原型绘制解决方案,并与我们的研究团队和实验一起测试想法。”
“记录详细的交互模型和 UI 规范。”
“为机器学习、丰富的分类法和/或兴趣图设计体验。”
这种描述听起来与 Twitter 的专利“用于确定社交内容相关性的系统和方法”中的描述非常相似,其中:
“编辑可能会制定规则,将某些短语归类为或多或少有趣……”
“……编辑可能会认为某些短语和属性在所有内容中都很有趣,无论创作内容的地点类别如何。 例如,短语‘on sale’或‘event’可能在所有情况下都很有趣,并且可以应用正权重。”
一项专利描述了如何为检测到具有商业语言的推文分配比没有商业语言的推文更低的分数。 (相反,如果用户进行搜索表明有兴趣购买某物,则可以翻转此类权重,以便可以为包含商业语言的推文赋予更高的权重。)
时间
一天中的时间可用于影响相关性。 例如,可以实施一项规则,以增加上午 8:00 至上午 10:00 之间提及“咖啡”的推文和/或咖啡店发布的推文的权重。
地点
专利描述了推文中的“地点引用”如何可以为关于地点的推文和/或与地点引用相关联的帐户与仅提及该地点的其他帐户带来更大的权重。 此外,用户设备的位置与与内容项(推文文本、图像、视频和/或作者)相关联的位置之间的地理接近度可以增加或减少潜在的相关性。
语
推文的语言可以分类(例如,英语、法语等)。
可以使用各种自动语言评估工具自动确定语言。
使用特定语言的推文会引起该语言的使用者更感兴趣,而其他人则不太感兴趣。
回复推文
推文可以根据它们是否是对先前推文的回复进行分类。 作为对先前推文的回复的推文可能被认为不如关于新主题的推文有趣。
在一个专利描述中,推文的主题可以确定该推文是否将被指定为显示给另一个帐户或包含在其他帐户的消息流中。
当您查看您的时间线时,有些推文的回复也会与主推文一起显示 - 例如,当您关注的帐户发布回复推文时。 在大多数情况下,回复推文只有在单击查看线程时才能查看,或者单击推文查看所有回复。
“有福”的账户
这是一个奇怪的概念,我相信它可能不会投入生产。
Twitter 将 Blessed Accounts 描述为在特定对话的图表中被标识,其中对话中的原始作者将被视为“祝福”,并且在对原始帖子的后续回复中,任何回复随后由祝福账户也变成“祝福”。
Blessed Accounts 在对话中发布的推文将获得更高的相关性分数。
网站简介
Twitter 专利中没有提到这一点,但在他们提到的所有其他因素的背景下,这太有意义了。
许多主要内容网站经常在 Twitter 上共享其链接,Twitter 可以轻松创建网站配置文件声誉/人气分数,当网站上的内容链接发布时,该分数也可以影响推文的排名。
新闻网站、信息资源、娱乐网站——所有这些都可以根据用于评估 Twitter 帐户的相同因素得出分数。 与相对不为人知且互动较少的网站相比,来自更受欢迎和参与度更高的网站的推文可能会被赋予更大的权重。
推特验证
是的,如果您怀疑用户名旁边的蓝色徽章传达了优惠待遇,那么 Twitter 的一项专利中有特定的措辞证实他们至少考虑过这一点。
由于经过验证的帐户通常已经具有与之相关的各种其他受欢迎程度指标,因此该因素是否正在使用中并不明显。 由经过验证的帐户发布的推文可能会获得更高的相关性分数,从而使它们比未经验证的帐户的推文出现更多。
以下是专利说明:
“在本发明的一个或多个实施例中,对话模块(120)包括应用相关性过滤器以增加对话图的一个或多个创作账户的相关性分数的功能,这些账户在已验证账户的白名单中被识别。 例如,已验证账户的白名单可以是容易被冒充的高知名度账户的列表。 在该示例中,名人和商业账户将由消息传递平台(100)验证以便通知消息传递平台(100)的用户账户是真实的。 在本发明的一个或多个实施例中,对话模块(120)被配置为将经过验证的创作账户的相关性分数增加预定义的数量/百分比。”
有趋势
这是一个二进制标志,指示推文是否已被识别为包含在消息广播时流行的主题。
应用检测到的性别、性取向和兴趣
Twitter 可能能够使用账户持有人的移动设备信息来推断账户持有人的性别,或推断对新闻、体育、举重训练和其他话题等话题的兴趣。
一些移动设备会提供有关手机上加载的其他应用程序的信息,以便诊断潜在的应用程序编程冲突。 因此,仅根据您手机应用程序的推断,可以为一些与您的性别、性取向和主题兴趣相匹配的推文提供更多有趣点。 (见:https://screenrant.com/android-apps-collecting-app-data/)
以及更多的排名因素
推特声明:
“我们考虑的特征列表及其不同的相互作用不断增长,为我们的模型提供了更加细微的行为模式。”
因此,这个因素列表可能在某种程度上代表了他们可能使用的因素,并且他们的列表可能正在扩大。
还可以想象,上述某些因素的自定义组合可以用作与特定主题相关的推文模型,通过机器学习方法为排名提供很大的潜在复杂性。 (同样,用于创建针对特定查询或主题定制的排名加权模型的机器学习与 Google 可能使用的方法非常相似。)
Twitter表示,每次访问Twitter时都会对推文进行评分,并且每次刷新他们的时间线时都会发生。 考虑到涉及的一些复杂因素,那是非常快的!
Twitter 对排名因素的权重和其他算法更改使用 A/B 测试,并根据参与度和时间查看/与推文交互来确定提议的更改是否是改进。 这用于训练排名模型。
机器学习在此过程中的参与表明,可以为许多特定场景生成排名模型,并且可能特定于特定主题和用户类型。 一旦开发完成,该模型就可以进行测试,如果它提高了参与度,它可以迅速推广到所有用户。
营销人员如何使用这些信息
从潜在排名因素列表中可以得出很多推论,营销人员可以使用这些推论来改进他们的推文策略。
仅发布有关其产品的公告和有关其公司的促销信息的 Twitter 帐户可能不会像与社区更具互动性的帐户那样具有较高的知名度,因为互动会产生更多的排名信号和潜在的好处。
长期以来,社交媒体专家一直推荐一种混合帖子类型的方法,而不仅仅是发布自我引用的宣传——这些策略包括“三分法”、“80/20 法则”等。
Twitter 排名因素可能支持这些理论,因为与 Twitter 用户数量的更多互动更有可能增加帐户的知名度。
例如,拥有许多追随者的大型公司帐户可以发布一个有趣的民意调查,以获取有关为其产品添加哪些功能的建议。 用户发布的投票和评论将使受访者更有可能由于最近的互动而看到公司的下一个帖子,并且下一个帖子可能是宣传或宣布新事物。 而且,受访者的追随者也可能更有可能看到该公司的下一个帖子,因为 Twitter 似乎考虑到了具有相似兴趣的用户可能更愿意看到符合他们兴趣的内容。
此外,这些因素表明了许多潜在的有益方法。
在发布推文推广产品或发布公告时,结合某些内容以引起关注者的响应可以轻松扩大平台上的曝光率,因为每个响应者对您的推文的回复可能会增加他们的直接关注者看到原始推文及其的几率连接的回复推文。
利用 Twitter 算法的社交图方面可以帮助增加你的推文的趣味性,并可以增加你的推文对其他用户的曝光率。
垃圾邮件因素会对推文排名产生负面影响
垃圾邮件检测算法会对推文排名能力产生负面影响。
一方面,Twitter 可以非常快速地暂停公然发送垃圾邮件的帐户,并且在明显且明确的情况下,可以预期该帐户会突然终止,导致其所有推文从对话图和时间线中消失,并且导致无法再查看帐户资料。
在其他情况下,如果帐户是否在发送垃圾邮件并不清楚,则可以通过应用负排名权重分数来简单地降级帐户的推文,或者推文可能会被锁定或暂停,直到帐户持有人采取纠正措施或验证他们的身份。
例如,具有良好推文历史的 Twitter 帐户可能会突然开始发布伟哥广告或恶意软件链接,例如,如果已建立的帐户被黑客入侵。 Twitter 可能会暂时暂停该帐户,直到采取纠正措施,例如通过 CAPTCHA 验证,或通过手机接收验证码和更改密码。 另一个例子可能是一个新用户在短时间内不小心超过了某个阈值,即在短时间内关注了太多帐户,或者发布的频率太高了。
Twitter 采用了多种方法来检测垃圾邮件并将其排除在外,以减少用户看到的垃圾邮件。
大部分自动检测依赖于检测帐户配置文件特征、帐户推文行为和在帐户推文中找到的内容的组合。
Twitter 开发了许多特征垃圾邮件“指纹”,以执行快速模式检测。 一项 Twitter 专利描述了如何:
“垃圾邮件是通过比较已识别的垃圾邮件帐户的特征来确定的,并构建一个可以与其他涉嫌垃圾邮件的帐户进行比较的‘相似度图’。”
被识别为可能包含垃圾邮件的推文可以用“是”或“否”之类的二进制值标记,然后被标记的推文可以从时间线中过滤掉。
同样可能存在一定程度的垃圾邮件,由多个因素计算得出,一旦推文或帐户超过阈值,它就会被降级。 我认为值得提及这些,因为 Twitter 用户可能不了解如何使用该平台的含义。 例如,发布一条过于激进的推文可能会在一段时间内对帐户的后续推文产生负面影响。 反复的前卫行为可能导致更糟的情况,例如完全删除帐户,没有机会恢复。
我将在此处添加一些在 Twitter 专利或博客文章中未特别提及的因素,因为 Twitter 出于显而易见的原因并未透露所有垃圾邮件识别因素。 但是,一些垃圾邮件和垃圾邮件帐户的特征似乎非常明显,因此我根据个人观察或知名研究来源添加了一些特征,以更广泛地了解可能导致垃圾邮件降级的原因。
垃圾邮件因素和其他负面排名因素
- 包含商业消息的推文发布时没有关注者/被关注者关系或单向关系(推文的作者关注它所提及的帐户,但接收帐户不关注作者),但它们之前没有互动,开始看起来可疑的。 如果使用相似或相同的文本多次执行此操作,则很快就会将其视为垃圾邮件活动,尤其是对于较新的帐户。
- 帐户年龄 - 年龄表明帐户是最近建立的。 (SparkToro 最近对 Twitter 垃圾邮件的研究表明帐户年龄不超过 90 天。)
- 帐户 NSFW 标志 - 该帐户有一个标志,表明它已被识别为链接到记录在潜在攻击性网站黑名单中的网站(例如具有色情、露骨材料、血腥等的网站)。
- 攻击性标志——推文已被确定为包含来自攻击性术语黑名单的一个或多个术语。
- 潜在虚假账户——该账户涉嫌冒充真人或组织,未经验证。
- 帐户发布频繁侵犯版权
- 黑名单 – 一项专利建议使用黑名单,该黑名单将应用相关性过滤器来降低账户的相关性分数,这些账户可能包括但不限于:垃圾邮件发送者、潜在的虚假账户、有可能或历史发布成人内容的账户、与发布非法内容、被其他用户标记的帐户和/或满足标记帐户的任何其他标准的潜在或历史记录。
- 帐户机器人标志——标识广播推文的帐户已被识别为可能由软件应用程序而不是人类操作。 此特定标准涉及许多含义,特别是对于那些使用调度应用程序类型发布推文或其他生成自动推文的软件的帐户。 例如,通过 Hootsuite 或 Sprout Social 等应用程序在每个时间段安排发布太多推文可能会导致用户帐户被暂停,或者通过 Twitter API 访问其应用程序被暂停。 这可能特别令人讨厌,就像手动发布每个时间段相同数量的推文一样,该帐户不会遇到问题。 长期以来,Facebook 和 Twitter 上的营销人员一直认为,各自的算法可能会降低通过软件发布的帖子与通过手动发布的帖子的可见性,而这个组件表明 Twitter 很可能就是这种情况。
- 包含冒犯性语言的推文可能会被允许削弱其趣味性得分。
- 通过 Twitter 的 API 发布的推文,例如通过依赖 Twitter API 的社交媒体管理工具发布的推文,通常会受到更严格的审查,正如 Twitter 所描述的那样:“当内容共享服务向开发人员开放其应用程序编程接口 (API) 时,问题可能会加剧。” 我的观察是,仅依赖第三方发布应用程序和 API 的帐户(尤其是较新的帐户)可能会看到其分发能力有些沙袋。 较新的帐户应该在初期通过人工使用建立起来,然后更多地依赖计划和发布应用程序,即使已建立的帐户如果将一些人工手动发布与其计划/自动/第三方相结合,也可能会看到更大的分发潜力- 申请帖子。
- 长期处于休眠状态的帐户 - 长时间未发布,然后突然恢复活力的帐户不会立即拥有原本可能拥有的排名能力。 这样做的原因是垃圾邮件发送者有时可能会成功劫持不活动的帐户,以破坏以前的真实帐户来发布垃圾邮件。
- 与垃圾邮件发送者或其他违反政策者相关的设备配置文件——本质上,专利表明 Twitter 正在使用浏览器指纹和设备指纹来检测垃圾邮件发送者和其他不良玩家。 指纹识别使技术服务能够生成数据组合的配置文件,其中包括 IP 地址、设备 ID、用户代理、浏览器插件、设备平台型号和版本以及应用程序下载,以创建独特的“指纹”来识别特定设备。 从中的一个主要收获是,如果您在手机或浏览器上使用两个或多个 Twitter 帐户,如果您通过其中一个帐户执行滥用推文,则很有可能会损害更“专业”的排名” 您在同一设备上操作的帐户。 在最坏的情况下,它甚至可能让你锁定两个帐户,因为你可以在一个帐户上做些什么。 这对于有员工进行专业推文的公司和机构具有相当严重的影响,而他们也可能会打开设备来发布个人推文。 可能导致问题的某些类型的推文包括:垃圾邮件、骚扰、虚假或误导性信息、威胁、重复侵犯版权、发布恶意软件链接等。 虽然我推测个人帐户也可能会在同一设备上暂停专业帐户,但我猜测它可能只会暂停该特定设备持有者的专业帐户,并且随后可以通过不同的设备访问专业帐户.
- 缺乏其他应用程序使用数据——Twitter 很有可能能够从移动设备接收数据,这些数据表明设备运营商是否已下载或最近在设备上使用了除 Twitter 应用程序之外的其他应用程序。 (请参阅:https://screenrant.com/android-apps-collecting-app-data/)垃圾邮件帐户的一个常见特征是它们不反映其他应用程序的使用情况,因为该设备主要用于向 Twitter 发送垃圾邮件并且不显示人类使用特点。 Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
- Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
- Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
- High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
- CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
- Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
- Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
- Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
- Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
- Tweets Containing Affiliate Links – self explanatory.
- Frequent Requests to Befriend Users in a Short Time Frame
- Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
- Accounts that Tweet Only URLs
- Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
- Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
- Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
- Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
- Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
- Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
- Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
- Profile Descriptions Matching Spammer Keywords/Patterns
- Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
- Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.
Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.

Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.
The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.
综上所述
Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.
The AI components include:
- 神经网络。
- Natural language processing.
- Circumflex calculation.
- Markov modeling.
- Logistic regression.
- Decision tree analysis.
- 随机森林分析。
- Supervised and unsupervised machine learning.
As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.
Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.
Author's disclosure
I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.
As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.
In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.
I have not disclosed any information covered by the protective order in this article from my recently-resolved case.
I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:
- 识别对话图中的相关消息
- 提供内容以供消息平台广播
- 在实时消息传递平台中推广内容
- 用于确定社交内容相关性的系统和方法
- 用于建立或维护个性化可信社交网络的系统和方法
- 显示对话图的相关消息
- 搜索基础设施
- 可见性过滤
- 消息网络中消息的优先级
- 应用程序图生成器
- 在 Twitter 的时间表中大规模使用深度学习
- 多层反垃圾邮件系统和方法
- 检测与社交媒体平台的脚本或其他异常交互
- Twitter 如何对抗垃圾邮件和恶意自动化
- 暂停帐户回顾:Twitter 垃圾邮件分析
- Twitter 分析:19.42% 的活跃账户是假的或垃圾邮件
本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 工作人员作者在这里列出。
