Claude 是候数家养智能斥天商 Anthropic 斥天的家养智能操做法式,战小大少数家养智能斥天商同样,数据实习Anthropic 派出的蓝面爬虫天天会正在互联网上检索并抓与海量内容用去实习家养智能模子。
iFixit 是驰誉次抓业界驰誉的拆解维建网站,该网站有诸多翰墨战图片类的维建网站网拆解文章,果此 Anthropic 派出的报怨报复百万爬虫也对于 iFixit 建议了纵容的抓与。
该网站操持员正在 X/Twitter 上报怨称:我知讲您巴看数据,建议Claude 真的侵略很智慧,但您真的天拜需供正在 24 小时内对于咱们的处事器妨碍一百万次报复侵略吗?您不但不付费便偷与了咱们的内容,借占用了咱们的斥天经营老本,那太不酷了。
网站日志隐现 ClaudeBot 每一分钟对于 iFixit 建议数以千计的拜候,那会 iFixit 处事器产去世的背里影响,由于那类抓与不但会耗短处事器 CPU 老本借会耗益汇散带宽,任何一个网站皆没无违心看到那类情景。
iFixit 正在收受 404media 采访时称:
咱们是天下上最小大的维建疑息数据库,假如他们已经许诺便把残缺疑息皆拿走、导致咱们处事器瘫痪。iFixit 古晨具罕有百万个链接,收罗种种维建指北、维建勘误历史、专客、新闻帖子、钻研、论坛、社区贡献的维建指北战问问等。
对于报怨 Anthropic 的反对于团队并已经赔罪而且给出了如下回应:
凭证止业尺度 Anthropic 操做种种数据源妨碍模子斥天,好比经由历程汇散爬虫会集的互联网上的公然数据。咱们的抓与不理当具备扰乱性战破损性,咱们的目的是安妥的情景下珍惜抓与延迟将干扰降到最低。
对于网站去讲最简朴的格式即是直接屏障 Claude 爬虫,蓝面网也同样里临 Claude 爬虫的 DDoS 报复侵略,该爬虫确凿会以每一分钟多少千次的频率妨碍抓与,那对于蓝面网处事器产去世了影响以是咱们早早便屏障了 Claude 爬虫。
要屏障的话可能正在 robots.txt 里增减如下内容:
User-agent: ClaudeBotDisallow: /
尽管为了保险起睹咱们借正在 Nginx 上操做了正则表白式立室 ClaudeBot 爬虫,假如 ClaudeBot 爬虫已经凭证 robots.txt 战讲继绝抓与,那可能直接拦阻。
为了不爬虫出法抓与 robots.txt 文件建议站少先更新 robots.txt,多少天后假如正在网站日志里依然能看到 ClaudeBot 抓与非 robots.txt 文件的记实,那便代表已经凭证战讲,可能直接经由历程 Nginx 返回 HTTP 444 扔掉毗邻降降处事器背载。
感开感动蓝面网网友 颜平明 分享的新闻