|
百度自己是怎么說(shuō)Spider抓取的?在spider的網(wǎng)頁(yè)抓取上,百度從站點(diǎn)評(píng)價(jià)、本站鏈接、pattern聚合、用戶反饋等方面給出了一些建議: 1.站點(diǎn)評(píng)測(cè) 指標(biāo)包括時(shí)效性、原創(chuàng)性、權(quán)威性、用戶訪問(wèn)友好性。 這里面需要注意三點(diǎn): 首先,注意新域名之前是否被濫用過(guò); 其次是注意域名是不是被黑�?梢允褂米ト≡\斷工具,查看源代碼,是不是被藏著小黑鏈; 此外,不要用泛濫的域名,很多免費(fèi)域名堆積了一大堆垃圾站,百度會(huì)評(píng)價(jià)聚合域名的價(jià)值,聚合的評(píng)價(jià)效果會(huì)影響小站,所以建議用比較常見(jiàn)或者傳統(tǒng)的域名; 2.本站的鏈接關(guān)系 過(guò)多的層級(jí)和鏈接對(duì)百度Spider來(lái)說(shuō)是很不友好的,鏈接深度越高,價(jià)值評(píng)估越低。 超鏈關(guān)系盡量要扁平,從首頁(yè)就能夠發(fā)現(xiàn); 優(yōu)質(zhì)的前鏈對(duì)后鏈?zhǔn)珍浻写龠M(jìn)作用; 時(shí)效性強(qiáng)的內(nèi)容往前推; 3.pattern Spider抓回鏈接,將相似的內(nèi)容聚合成Pattern,和網(wǎng)頁(yè)內(nèi)容相似的站點(diǎn)會(huì)給聚和,這種聚合決定了抓取。 選比較好的進(jìn)行實(shí)時(shí)推送,可以形成一個(gè)較好的Pattern 4.用戶的反饋數(shù)據(jù) 包括點(diǎn)擊量,瀏覽時(shí)長(zhǎng),跳出率等,要給用戶提供有價(jià)值的內(nèi)容; 5.其他 Url長(zhǎng)度要均勻規(guī)范。 參數(shù)過(guò)多導(dǎo)致的長(zhǎng)Url,在Spider抓取的時(shí)候往往被認(rèn)為沒(méi)有價(jià)值,長(zhǎng)尾會(huì)被Pass掉,不要搞無(wú)謂的參數(shù); 百度Spider非常不歡迎爆發(fā)式的內(nèi)容增長(zhǎng),而且會(huì)打壓。 因此鏈接推送速度要均勻,而不是攢一堆推過(guò)來(lái),或者復(fù)制一堆東西推過(guò)來(lái)。 現(xiàn)在開(kāi)始做營(yíng)銷,再晚都算不晚 |