91香蕉app下载安装无限看,99re99精品精品免费

蜘蛛抓取但是收錄不放出來為什么

時間：2020-07-24 瀏覽：125次欄目：營銷推廣

摘要：1、爬取和收錄的關(guān)系：爬取和收錄并不是包含關(guān)系，他們兩個是搜索引擎工作的環(huán)節(jié)，蜘蛛爬取頁面后放入臨時數(shù)據(jù)

1、爬取和收錄的關(guān)系：

爬取和收錄并不是包含關(guān)系，他們兩個是搜索引擎工作的環(huán)節(jié)，蜘蛛爬取頁面后放入臨時數(shù)據(jù)庫，等內(nèi)容通過審查后背放出就形成了收錄。所以這兩個環(huán)節(jié)是前后關(guān)系，但是沒有必然的聯(lián)系。

2.蜘蛛抓取頁面的過程：

第一階段：大小通吃
搜索引擎蜘蛛過來抓取時，就需要對網(wǎng)站的URL進行一個統(tǒng)一的抓取，也就是站長常說的“大小通吃”的情況。搜索引擎蜘蛛對網(wǎng)頁中出現(xiàn)地鏈接，都會逐一加入到待抓取URL中，機械性的將新抓取的網(wǎng)頁中的URL提取出來。這對于很多的站點來說，是比較好的情況。搜索引擎蜘蛛過來抓取時，站長可以通過網(wǎng)站日志有一個清楚的記錄。站長可以通過網(wǎng)站日志分析網(wǎng)站優(yōu)化的基本情況，這僅僅是第一階段。 copyright limeiseo

第二階段：網(wǎng)頁評級
搜索引擎蜘蛛對網(wǎng)站的頁面進行抓取以后，就需要對網(wǎng)站的頁面進行評級。PageRank是一種著名的鏈接分析算法，可以用來衡量網(wǎng)頁的重要性，很自然的，站長可以用PageRank的思路來對URL進行排序。搜索引擎蜘蛛抓取頁面后，會對網(wǎng)站的頁面進行下載。但PageRank是個全局性算法，也就是當所有網(wǎng)頁有下載完成后，其計算結(jié)果才是可靠的。對于中小網(wǎng)站來講，服務(wù)器如果質(zhì)量不好，如果在抓取過程中，只看到部分內(nèi)容，在抓取階段是無法獲得可靠的PageRank得分。

3、蜘蛛爬取成功卻不放出來的原因：

蜘蛛爬取后會將頁面放入到臨時數(shù)據(jù)庫，搜索引擎再對臨時數(shù)據(jù)庫中的內(nèi)容進行審查，將優(yōu)質(zhì)的內(nèi)容放出并建立索引。所以并不是說爬取就會被收錄，還需要內(nèi)容質(zhì)量過關(guān)才能被放出來并建立索引。不同的蜘蛛抓取的頁面評測也不一樣，有的是低權(quán)重的蜘蛛，有的是高權(quán)重的蜘蛛和抓取待定的蜘蛛，這個可以百度搜下各種蜘蛛的情況，來做出各種應(yīng)對情況利美網(wǎng)絡(luò)

正常情況下網(wǎng)站提交后次日，spider會放出一個網(wǎng)站主頁的快照。再接下來的時間內(nèi)，會不斷的收錄索引內(nèi)容頁，并持續(xù)的放出。這個過程維護一月、二月、或者是三月，時間不等。如果網(wǎng)站已經(jīng)有首頁放出，說明百度蜘蛛已經(jīng)有來抓取過，只是內(nèi)容還沒有放出來，多等待些時間即可。如果在等待收錄放出的時間階段不要做任何大的發(fā)動。比如說修改title標題、修改url 等。否則會延長放出的時間，周期也會變長。

利美網(wǎng)絡(luò)

其次，如果內(nèi)容和首頁都沒有放出來，就需要重新向百度提交，通知百度蜘蛛來抓取網(wǎng)站的內(nèi)容，最好是提交個sitemap地圖，手動提交一下。 limeiseo（加v分享）

本文標簽：

蜘蛛抓取但是收錄不放出來為什么

猜你喜歡