亚洲龙腾成人精品小说网,正品日本高清dvd碟片生活版,亚洲精品久久久久久,野花韩国高清视频,亚洲午夜久久久影院伊人

您的位置: 首頁 > 新聞 > 高新技術(shù) > 新聞詳情

AI公司不斷開發(fā)新爬蟲繞過阻攔 網(wǎng)站運營跟不上

時間:2024-07-30 17:20:29
  • 來源:404 Media
  • 作者:3DM編譯
  • 編輯:爆裂真菌

在網(wǎng)路建立的早期,大家有了一個不成文的協(xié)議,即一個名為“robot.txt”的文本文件——也就是攔截列表中將決定誰能夠訪問你的網(wǎng)站,這主要針對機器人/爬蟲。一般網(wǎng)站主要面向搜索引擎開放,以讓搜索引擎帶來流量。但這個不成文的約定正在被人工智能公司打破。

AI公司不斷開發(fā)新爬蟲繞過阻攔 網(wǎng)站運營跟不上

已經(jīng)有許多網(wǎng)站為了保護權(quán)益正在試圖阻止一家名為 Anthropic 的 AI 公司抓取網(wǎng)站內(nèi)的內(nèi)容。然而隨著該公司不斷開發(fā)新的爬蟲,來不及更新“robot.txt”文件的網(wǎng)站成了被盜用資源的受害者。

根據(jù) 404 Media 采訪跟蹤網(wǎng)絡爬蟲和抓取工具網(wǎng)站的 Dark Visitors 運營者,他在幫助其他網(wǎng)站運營者更新“robot.txt”期間發(fā)現(xiàn),現(xiàn)狀非?;靵y。匿名運營著說道:“代理生態(tài)系統(tǒng)瞬息萬變,因此網(wǎng)站所有者基本不可能手動跟上?!?

拿 Anthropic 距離,一些熱門網(wǎng)站例如路透社等在 robot.txt 中組織了“ANTHROPIC-AI”和“CLAUDE-WEB”兩個爬蟲,他們曾由 Anthropic 的 Claude AI 聊天機器人使用,但目前該公司最活躍的爬蟲實際上是“CLAUDEBOT”,因此這些網(wǎng)站都不會阻攔該爬蟲。其他數(shù)百個復制粘貼攔截列表的網(wǎng)站也未能阻止該公司。

AI公司不斷開發(fā)新爬蟲繞過阻攔 網(wǎng)站運營跟不上

404 Media 采訪了許多網(wǎng)絡行業(yè)從業(yè)者,他們均表示面對 AI 公司的這種行為,鼓勵網(wǎng)站積極屏蔽此類機器人/爬蟲。網(wǎng)絡安全公司 StackAware 首席執(zhí)行官 Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽對象,并說道:“如果它們最終不存在,那么阻止它們也不會產(chǎn)生任何影響?!?

他還表示該屏蔽列表說到底也不過是互聯(lián)網(wǎng)的一個約定俗成,“阻止 AI 公司的代理依賴于 AI 公司尊重  robot.txt 文件,并且你還需要知道所有的 AI 抓取代理。對于大多數(shù)公司來說,這種情況的可能性很低,因此我預計更多的創(chuàng)作者會將他們的內(nèi)容轉(zhuǎn)移為付費觀看,以防止無限制的抓取?!?

0

玩家點評 0人參與,0條評論)

收藏
違法和不良信息舉報
分享:

熱門評論

全部評論

他們都在說 再看看
3DM自運營游戲推薦 更多+