首頁>資訊 >
公眾號(hào)可被搜索引擎抓取,微信或?qū)⒏印盎ヂ?lián)互通” 2021-10-25 07:32:46  來源:36氪

微信公眾號(hào)的內(nèi)容只能在微信中看,這可以說早在多年前就已經(jīng)成為用戶的共識(shí)。不過最近有消息顯示,微信公眾號(hào)的內(nèi)容可以被谷歌和必應(yīng)等搜索引擎搜索到。

但騰訊方面很快就給出了回應(yīng),并表示是因?yàn)榻谄脚_(tái)技術(shù)升級(jí),公眾號(hào)的robots協(xié)議出現(xiàn)了漏洞,致使外部爬蟲技術(shù)可抓取部分公眾號(hào)內(nèi)容,但目前漏洞已修復(fù)。按照這一說法,這一次的情況只是技術(shù)操作失誤。 

那么,導(dǎo)致公眾號(hào)內(nèi)容出現(xiàn)在海外搜索引擎山上的“元兇”robots協(xié)議是什么呢?事實(shí)上,robots協(xié)議也叫robots.txt,是一種存放于網(wǎng)站根目錄下的ASCII編碼文本文件,它的唯一作用就是告訴搜索引擎的user-agent(網(wǎng)絡(luò)蜘蛛),網(wǎng)站中的哪些內(nèi)容是不對(duì)搜索引擎蜘蛛開放,哪些內(nèi)容又可以被抓取的。 

作為控制網(wǎng)站被搜索引擎抓取內(nèi)容的一種策略,該文件一般會(huì)放在網(wǎng)站的根目錄里,也就是/robots.txt。因此可以直接在網(wǎng)站域名后加上/robots.txt,就能訪問到該網(wǎng)站的robots協(xié)議頁面。 

我們以淘寶的“https://www.taobao.com/robots.txt”為例可以看到,這家電商網(wǎng)站采用的robots協(xié)議其實(shí)非常簡單,“User-agent”主要作用是告訴網(wǎng)站服務(wù)器,訪問者是通過什么工具來請(qǐng)求的,而后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎蜘蛛,而最后的“Disallow: /”,按照robots協(xié)議的規(guī)則,是禁止被描述的搜索引擎蜘蛛(百度)訪問網(wǎng)站的任何部分。 

其實(shí)早在2008年9月百度搜索引擎就已經(jīng)被淘寶屏蔽,而這幾行簡簡單單的代碼,也讓淘寶在戰(zhàn)略層面掌握了競爭的主動(dòng)權(quán),避免了流量被百度搜索引擎拿走,同時(shí)也避免了平臺(tái)內(nèi)的商家要給百度競價(jià)排名付費(fèi)的可能,更是間接催生了淘寶的競價(jià)排名體系。 

而對(duì)于微信來說同樣也是如此,此前微信公眾號(hào)的內(nèi)容只支持在該應(yīng)用的搜一搜功能,或是騰訊旗下的搜狗搜索引擎中搜索到。這主要要因?yàn)橛脩羯暇W(wǎng)沖浪的最終目地往往是消費(fèi)內(nèi)容,而內(nèi)容、特別是高質(zhì)量的原創(chuàng)內(nèi)容更是天然的流量來源,這些內(nèi)容可以幫助微信形成封閉的商業(yè)生態(tài)。所以讓用戶只能在體系內(nèi)訪問微信公眾號(hào)的內(nèi)容,也就成為了微信保護(hù)私域流量的關(guān)鍵。 

那么問題就來了,robots協(xié)議會(huì)出現(xiàn)漏洞嗎?答案是肯定的。robots協(xié)議從本質(zhì)上來說就是網(wǎng)站運(yùn)營方提供的規(guī)則,然而是規(guī)則就免不了出現(xiàn)漏洞。不過robots協(xié)議也很難出現(xiàn)問題,因?yàn)樗臅鴮懛浅:唵?、邏輯也很直白,允許什么搜索引擎爬蟲訪問什么內(nèi)容都可以清晰地表述出來。特別是微信這種協(xié)議非常簡單的規(guī)則,僅面向自己的應(yīng)用內(nèi)搜索和搜狗搜索開放的robots協(xié)議,基本也不會(huì)有什么多余的內(nèi)容。 

更為重要的一點(diǎn)是,robots協(xié)議本身其實(shí)是一個(gè)“君子協(xié)議”,是一個(gè)搜索引擎與網(wǎng)站之間的共識(shí),并沒有任何法律效力,也沒有任何技術(shù)約束。所以換句話來說,這也意味著robots協(xié)議從技術(shù)層面是無法與搜索引擎爬蟲對(duì)抗的。 

例如,一些網(wǎng)站如果不想讓爬蟲占據(jù)自家寶貴的服務(wù)器資源,往往就會(huì)直接在robots.txt文件中寫上這樣的規(guī)則,“User-agent: Googlebot,Allow: /User-agent: *,Disallow: /”,意思是本網(wǎng)站僅允許谷歌爬蟲抓取,拒絕其他任何搜索引擎。 

然而有意思的事情來了,蘋果方面在官網(wǎng)的“Applebot”頁面聲明中寫道,“如果robots.txt中沒有提到Applebot,而是提到了Googlebot,那么Applebot將遵循Googlebot的指令“,言下之意就是Applebot也是Googlebot。 

事實(shí)上,robots協(xié)議并不會(huì)經(jīng)常修改,畢竟它的內(nèi)容是與內(nèi)容運(yùn)營策略息息相關(guān)的。而微信的robots協(xié)議在平穩(wěn)運(yùn)行了多年后,卻在此前監(jiān)管部門要求互聯(lián)網(wǎng)廠商互聯(lián)互通的時(shí)候出現(xiàn)“漏洞”,這個(gè)件事就可以說或非?!扒伞绷?。 

9月17日在監(jiān)管機(jī)構(gòu)的要求之下,在過去數(shù)年間各大互聯(lián)網(wǎng)廠商建立的以鄰為壑的“高墻”已經(jīng)開始逐步坍塌。盡管在要求“互聯(lián)互通”一個(gè)月后,各大互聯(lián)網(wǎng)廠商之間的藩籬雖然還沒有一夜之間倒塌,但也逐漸有了消融的跡象。 

對(duì)于微信來說,公眾號(hào)內(nèi)容開放給外界,或許是騰訊分階段分步驟實(shí)施互聯(lián)互通中的一個(gè)環(huán)節(jié)。而如今微信公眾號(hào)的內(nèi)容出現(xiàn)在谷歌和必應(yīng)上,也更像是微信在測(cè)試新的robots協(xié)議。畢竟,此前他們的robots協(xié)議協(xié)議可以說是非常簡單,只需要允許搜狗搜索一家即可,但現(xiàn)在卻需要對(duì)外界開放。 

要知道,國內(nèi)的搜索引擎蜘蛛可不僅僅是百度、搜狗、360這些大家比較熟悉的,還有包括網(wǎng)易有道的YoudaoBot、宜搜的EasouSpider、一搜的YisouSpider、微軟的Bingbot和Msnbot,以及其他大大小小不知名的爬蟲。所以有觀點(diǎn)認(rèn)為,這也就使得微信robots協(xié)議的編寫難度將會(huì)陡然上升。

本文來自微信公眾號(hào) “三易生活”(ID:IT-3eLife),作者:三易菌,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 公眾 可被 搜索引擎 抓取

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片