7 月初埃隆馬斯克帶領(lǐng)的原已經(jīng)有搜 X 曾屏蔽谷歌搜索爬蟲抓取內(nèi)容,這導(dǎo)致谷歌搜索無法在用戶搜索 X 用戶名時展示最新的推特推文摘要,不過后面 X 對谷歌解封了。屏蔽廣州花都哪里有小姐上門服務(wù)vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)
但其他搜索引擎就沒那么幸運了,除谷如果使用 site:twitter.com 指令在必應(yīng)搜索上查詢的歌外話,你會發(fā)現(xiàn)必應(yīng)收錄的索引 X 內(nèi)容只有 12.1 萬條,而谷歌搜索則是擎阻 4.22 億條。
發(fā)生了什么?止數(shù)抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬蟲,至于原因嘛也很簡單,據(jù)被廣州花都哪里有小姐上門服務(wù)vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)埃隆馬斯克不想 X 的藍(lán)點數(shù)據(jù)被其他人抓取拿去訓(xùn)練 AI,所有屏蔽了諸如 Bingbot、原已經(jīng)有搜MSNbot、推特Yandex 等搜索引擎爬蟲。屏蔽


那谷歌為什么是例外的呢?估計馬斯克都要罵街了,因為之前有傳聞稱杰克多西時代的歌外推特與谷歌達(dá)成了相關(guān)協(xié)議,允許谷歌抓取內(nèi)容,目前這一協(xié)議尚未到期。
藍(lán)點網(wǎng)通過互聯(lián)網(wǎng)檔案館排查發(fā)現(xiàn),X 是在 2023 年 7 月 24 日執(zhí)行屏蔽操作的,更新后的 robots.txt 文件僅允許 Googlebot 抓取內(nèi)容,其他所有爬蟲均被封禁。
所以現(xiàn)在諸如必應(yīng)搜索上的推特內(nèi)容極少也就是這個原因,后面估計索引數(shù)量會進(jìn)一步降低,如果谷歌的協(xié)議到期了估計內(nèi)容也都會消失。
不過 robots.txt 畢竟只是君子協(xié)定 (這不是法律規(guī)定,之前某大數(shù)字被某度起訴抓取某度百科內(nèi)容時,就辯稱這是 robots.txt 只是行業(yè)管理而非法律規(guī)定),所以仍然有各種來路不明的爬蟲試圖抓取推特上的內(nèi)容拿去賣數(shù)據(jù)。
對于這種情況埃隆馬斯克也早有準(zhǔn)備,在協(xié)議規(guī)定未經(jīng)同意獲取內(nèi)容屬于違反協(xié)議的行為,馬斯克對這些未經(jīng)同意的抓取行為直接起訴。
附 X robots.txt 的最新內(nèi)容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬蟲抓取內(nèi)容# ========================================================User-agent: *Disallow: /


相關(guān)文章



精彩導(dǎo)讀
熱門資訊
關(guān)注我們