Cloudflare將預設封鎖AI網頁爬蟲除非付費給內容網站

图片来源:

Cloudflare

因应AI模型业者以网页爬虫（robot）未经同意撷取网页内容训练模型，本周内容递送网路（CDN）业者Cloudflare宣布新措施，将预设封锁AI网页爬虫。同时间，Cloudflare提供出版商能以允许爬虫赚取收入的方案。

在周二（7/1）Cloudflare称为内容独立日（Content Independency Day）最新措施，也是去年Cloudflare提供网页爬虫的封锁工具给客户后更进一步。

Cloudflare指出，Google、OpenAI及Anthropic AI业者提供的聊天机器人在其回应中，已提供75%用户需要的答案，而无需用户造访网页，而Google的AI Overview的推出将使比例更向上攀高。

然而AI网页爬虫（或网页机器人）撷取了出版商网页内容提供的回答，已经对出版商造成营运伤害，因为来自广告及订阅的收入消失。

过去10年，内容创作者想再产生同样流量，困难几乎成长10倍，这还是来自Google造成的损害。根据Cloudflare的数据，因OpenAI及Anthropic再产生同样流量，困难度达到750及30,000倍。可以说AI爬虫侵害已严重侵害网路产业。

因此Cloudflare宣布，已和主要出版商和AI公司合作，采取新措施来防范AI网页爬虫不当撷取出版商的内容，并为创作者开辟新的营收来源。Cloudflare将预设封锁AI爬虫，除非AI业者支付创作者费用。

Cloudflare也宣布Pay per crawl的支付方案。它整合有Web基础架构，运用HTTP status codes建立验证机制，以建立付费内容存取框架。

技术原理如下。AI爬虫每次呼叫内容时，若不能request headers经由展示支付意图（intent）就会接收到一个附有收费价格的402 Payment Required的回应。Pay per crawl的纪录商户（Merchant of Record）和底层技术架构都是由Cloudflare扮演。

Pay per crawl框架提供网域持有者（出版商）收费策略完整控制权。他们可以定义站上以呼叫次数计费的单一费率，也能决定允许、收费和封锁。但必要时，出版商必要时也可绕过收费，以免费内容执行外部内容合作。而AI网页爬虫操作单位及内容拥有者（出版商）必须在Cloudflare帐号下设定pay per crawl支付细部规定，所有爬虫呼叫及支付活动都会纪录下来，再由Cloudflare集结、收费并将报告发布给出版商。

不过Pay per crawl最重要的是出版商愿意使用。目前Pay per crawl以不公开beta版本测试，Cloudflare邀请出版商报名加入。

Cloudflare将预设封锁AI网页爬虫 除非付费给内容网站

Cloudflare将预设封锁AI网页爬虫除非付费给内容网站