网络服务提供商 Cloudflare 宣布即日起为所有网站 (包括免费托管的网站) 带来 AI 审计功能,该功能目前处于测试阶段,可以分析 AI 公司的爬虫和抓爬数据。+ D/ o( \+ S4 ~8 {3 V6 g
* @6 n5 _" N+ W/ B
新的 AI 审计工具 (Cloudflare AI Audit) 主要提供 AI 公司的爬虫何时到网站来抓取数据、抓取的数据地址、抓取频次以及其他分析数据。 . D- `7 M4 \8 i0 @" E. L- g3 f& t" f+ G' `6 G; r
内容创作者和网站管理员可以借助 AI 审计功能轻松检查自己的内容被哪些 AI 公司白嫖了,如果被白嫖难受的话,也可以直接一键禁止抓取。 ; [ U7 n7 x" e5 ^6 Y- O, w( X 7 I4 v6 Y, ?+ P8 h& J! D) i其中 AI 审计工具中的禁止抓取与 Cloudflare 已经提供的一键禁止所有 AI 爬虫抓取不同,在 AI 审计工具中网站管理员可以分门别类的进行审计和屏蔽。! t$ {1 M) ~ N$ G \/ E
3 P2 y& |9 |) t' h举个例子:如果网站已经与 OpenAI 达成协议允许其抓取内容,则网站管理员可以放行 GPTBot 爬虫,而其他认识的、不认识的、白嫖的爬虫可以全部屏蔽。0 E, P+ u. [* g2 _9 N7 { @# ] K
! j9 ?) J( F _+ S0 o' D0 I" K8 [
在 Cloudflare 的演示中目前能够识别的爬虫包括 OpenAI、Meta、字节跳动、Common Crawl (通用爬虫,即不可识别到特定公司的爬虫)、Anthropic、Amazon、Perplexity 等知名的人工智能开发商。1 V6 \8 x9 y* i& A
' D; m4 ^( q, B6 G8 H7 _如果网站本身没有和任何一家 AI 公司达成内容授权协议,那还可以通过 AI 爬虫的抓取频次进行封禁,这样可以避免某些公司的爬虫进行高频次抓爬耗费服务器带宽和流量以及影响正常用户的访问体验。 $ `" Z! h3 j0 P0 |$ @ M0 r5 v , h: `% X T3 o6 [; ~* y* ]此外 Cloudflare 还计划在明年推出交易市场,允许网站管理员设置自己网站的内容抓取价格,AI 公司如果愿意的话可以付费获取抓取权限,如果不愿意付费那网站就可以通过 Cloudflare 一键拦截爬虫阻止内容被抓取。 + y* U& M* p; p- k, Q* V! }+ Q 8 Q5 d. t- B$ G7 ~; t& ?AI 审计路径:登录 Cloudflare 控制台、选择特定的网站、在左侧导航栏点击 AI Audit 即可查看,目前此功能刚刚上线因此大部分网站数据可能还是空白的。; I+ `/ H( x% C" n# ?* ]& B" x
) ]- U: m! h5 y- ?8 A来源: Cloudflare blog 和 landian news ( d. C. o! |' l4 u! u3 ? 7 |3 k. X+ P6 Z' K' F- S6 }