Cloudflare
因应AI模型业者以网页爬虫(robot)未经同意撷取网页内容训练模型,本周内容递送网路(CDN)业者Cloudflare宣布新措施,将预设封锁AI网页爬虫。同时间,Cloudflare提供出版商能以允许爬虫赚取收入的方案。
在周二(7/1)Cloudflare称为内容独立日(Content Independency Day)最新措施,也是去年Cloudflare提供网页爬虫的封锁工具给客户后更进一步。
Cloudflare指出,Google、OpenAI及Anthropic AI业者提供的聊天机器人在其回应中,已提供75%用户需要的答案,而无需用户造访网页,而Google的AI Overview的推出将使比例更向上攀高。
然而AI网页爬虫(或网页机器人)撷取了出版商网页内容提供的回答,已经对出版商造成营运伤害,因为来自广告及订阅的收入消失。
过去10年,内容创作者想再产生同样流量,困难几乎成长10倍,这还是来自Google造成的损害。根据Cloudflare的数据,因OpenAI及Anthropic再产生同样流量,困难度达到750及30,000倍。可以说AI爬虫侵害已严重侵害网路产业。
因此Cloudflare宣布,已和主要出版商和AI公司合作,采取新措施来防范AI网页爬虫不当撷取出版商的内容,并为创作者开辟新的营收来源。Cloudflare将预设封锁AI爬虫,除非AI业者支付创作者费用。
Cloudflare也宣布Pay per crawl的支付方案。它整合有Web基础架构,运用HTTP status codes建立验证机制,以建立付费内容存取框架。
技术原理如下。AI爬虫每次呼叫内容时,若不能request headers经由展示支付意图(intent)就会接收到一个附有收费价格的402 Payment Required的回应。Pay per crawl的纪录商户(Merchant of Record)和底层技术架构都是由Cloudflare扮演。
Pay per crawl框架提供网域持有者(出版商)收费策略完整控制权。他们可以定义站上以呼叫次数计费的单一费率,也能决定允许、收费和封锁。但必要时,出版商必要时也可绕过收费,以免费内容执行外部内容合作。而AI网页爬虫操作单位及内容拥有者(出版商)必须在Cloudflare帐号下设定pay per crawl支付细部规定,所有爬虫呼叫及支付活动都会纪录下来,再由Cloudflare集结、收费并将报告发布给出版商。
不过Pay per crawl最重要的是出版商愿意使用。目前Pay per crawl以不公开beta版本测试,Cloudflare邀请出版商报名加入。