好机器人，坏机器人，以及介于两者之间的麻烦机器人

已发表: 2017-06-16

在过去的 18 个月中，我们看到针对特定电子商务网站的智能网络机器人数量显着增加。至少这些机器人很烦人，在最坏的情况下，它们可以有效地引发 DDoS 攻击并导致网站瘫痪。

网络机器人已经存在了很长时间，我们都从中受益。有好的机器人（如 Googlebot 或 Bingbot），也有坏的机器人会自动尝试破解 Web 应用程序或将垃圾邮件注入网站。好的通常是有益的，而坏的通常可以通过诸如 Web 应用程序防火墙 (WAF) 之类的解决方案来处理，该解决方案将识别恶意请求并阻止它们。

有问题的机器人通常是介于好与坏之间的机器人。这些可能很难检测到，因为它们通常会冒充普通用户并单独提出完全安全、合法且看似无害的请求。

尽管他们的意图通常不是 DDoS 攻击，但有时当他们过于激进或僵尸程序一次访问网站的实例过多时，效果可能是相同的。

这些机器人出于多种原因在商业上使用，包括：

自动购买产品（积极的购买机器人可能会在产品发布期间导致严重的性能问题）
内容聚合（您的内容可以冒充他人的）
竞争对手价格分析（竞争对手可以使用此数据削弱您的价格）
激进的内容抓取（激进的抓取工具会给您的网络平台带来压力）

全渠道与多渠道：有什么区别，谁在做？

大多数零售商现在都是多渠道的，他们通过多个渠道销售产品。然而，很少有真正的全渠道。了解被视为全渠道业务意味着什么。

商业机器人导致很多问题的真实示例

我们有一个客户经常销售非常受欢迎的限量版产品。这些产品在 eBay 上销售时通常可以卖到建议零售价的 3 倍，而零售商只能出售有限的货源。这些产品中的大多数都在全球范围内协调发布，因此发布的确切时间是众所周知的。

在过去的 18 个月中，我们越来越多地看到，成千上万的人使用极其激进的机器人试图购买这些产品，以至于电子商务平台的性能可能会受到严重影响。

在这种情况下，机器人是专门为该零售商的网站设计的，并且知道将产品添加到购物篮和结账所需的确切请求。他们甚至不需要访问产品展示页面。它们通常分布在多个云服务器上，每个服务器上都安装了多个机器人实例。由于发布时间是公开且协调的，所有机器人都开始尝试将产品添加到购物篮并在同一时间完成结账，通常一次有数千个。

我们看到的记录是 12 小时内有 300 万次尝试购买单个产品。

因为请求都是合法的，并且机器人正在冒充真实用户，所以在不阻止真实用户的情况下，很难在它们造成损害之前足够快地阻止机器人。等待 1 分钟来记录特定 IP 发出了多少请求是没有意义的，如果数量超过某个阈值，您就阻止它们。至此，损坏已经造成，您的结帐中同时有数以万计的机器人。

机器人也对真实用户不利，因为您可以保证机器人将首先在队列中获取产品，因为它们会在产品上线的第二个时间开始购买。尽管零售商显然仍然获得了销售，但他们可能会因此失去品牌忠诚度，因为真正忠诚的客户总是会输掉。

借助聊天机器人和对话式 AI 回到未来

嘿，McFly，未来就在这里。对话式人工智能正在帮助企业自动化面向客户的对话和互动，例如客户服务和潜在客户生成查询。

那么如何管理好机器人和坏机器人呢？

去年，许多组织（例如 CDN）一直在快速开发机器人管理解决方案，以应对零售商面临的越来越多的机器人问题。一些，例如 Akamai 的机器人管理器解决方案，在他们尝试识别机器人的方式以及它将为零售商提供如何处理机器人的选项方面可能非常复杂。

简单地阻止机器人并不总是答案。如果他们知道自己被屏蔽了，他们可以跳到另一个 IP 或尝试进化以欺骗机器人管理员。

更好的解决方案是通过向机器人显示错误的内容（可能是更高的价格——在用于分析竞争对手价格的机器人的情况下）来愚弄机器人，或者只是放慢它们的速度。 这也是一种有用的技术，可用于仅有害的机器人，因为它们在爬行时过于激进。 您不想完全阻止它们，但确实希望稍微减慢它们的速度以减少对基础架构的影响。

零售业的机器人和人工智能：你必须知道的 8 件事

“请穿一件新外套，”你对商店机器人说，有点匆忙。它注意到你没有心情闲聊，并且已经知道你在星期四晚上几乎没有空闲时间。机器人立即呈现三件时尚外套，当然是您的完美尺码。几分钟后，…

尽管机器人管理器解决方案肯定是一个有用的工具，但它不太可能识别和停止所有机器人，并且在上面详述的真实世界实例中，当它可能将用户识别为机器人时，可能为时已晚，因为损害已经造成。机器人将不断适应和发展，以阻止机器人管理员阻止它们，因此它是一个移动的目标。

有效管理这些机器人的解决方案是多方面的。没有一个单一的解决方案可以捕获所有内容并为您提供所需的所有控制。不同的服务和解决方案将在不同领域针对不同类型的机器人提供保护。只有部署多种防御和解决方案，才能有效管理这些机器人。

构建机器人管理策略时需要考虑的 4 个方面

CDN层

CDN 可以成为抵御恶意或麻烦流量的第一道防线。理想的 CDN 配置可确保对您的 Web 应用程序的所有请求（无论是否可缓存）都通过 CDN 进行过滤。然后，您可以使用 CDN 将提供的工具（例如 WAF、机器人管理器，甚至一些基本的速率限制规则）来保护您的网站免受最明显的机器人攻击。

WAF 层

许多零售商在其 CDN 和托管基础设施之间都有一个 WAF 层。高质量的 WAF（例如 Imperva WAF）可用于自动检测和阻止恶意请求，例如由许多恶意机器人发出的请求。此外，可以添加自定义规则来识别和阻止或限制那些不是恶意但可能很麻烦的机器人。

应用缓存层

在防火墙和 Web 应用程序之间实施诸如 Varnish 之类的工具不仅可以提高速度和性能，还可以用来限制攻击性机器人的影响。许多 Varnish 模块 (Vmods) 可用于有效限制对特定 url 的请求速率。

应用层

可以对您的应用程序进行更改，以保护它免受攻击性或麻烦的机器人的攻击。

例如，在相关时间使用 Google reCAPTCHA 等简单工具，限制随时可以将特定产品添加到购物篮的用户数量，甚至推出诸如购买独家和限量版产品的抽奖等举措，以便这些产品不能以传统方式购买，这将有助于防止机器人成功。

重要的是要考虑实施上述部分或全部解决方案，而不是仅仅依赖其中一个，因为每个解决方案都会以略有不同的方式防御这些机器人。

例如，如果您只是依靠应用程序更改来防止购买机器人，它们仍然会影响您的基础架构的其余部分，甚至会导致诸如填充 apache 或 Varnish 日志文件等问题，以至于您的服务器可能会耗尽磁盘空间。

机器人将继续存在：了解 RPA 的好处

机器人过程自动化的商业利益包括数字化、降低成本、提高生产力。 RPA 也易于使用。

好机器人与坏机器人：不要忽视迹象

总之，机器人正在成为电子商务零售商日益增长的商业威胁，有效地处理它们可能非常复杂。关于多少网络流量实际上是人类与机器人的估计有所不同，但普遍的共识是，高达 50% 的网络流量是由机器人产生的。

如果您考虑这个数字以及他们将使用的带宽和容量，以及大约 50% 的机器人流量来自“不良”或恶意机器人这一事实，任何零售商都不应忽视这一点。