代理加盟 2019全新代理計劃 賺錢+省錢雙管齊下,獨立平臺,豐厚利潤!

您現在的位置: cf阿拉维斯如何钻bug > 織夢大學 > ??椴寮?/a> >

韦斯卡ⅤS阿拉维斯:火車頭列表頁分頁采集獲取案例

來源:未知 發布時間:2019-01-08熱度: ℃我要評論
對于設置列表分頁,下圖設置是最常見也是最常用的。 現在教大家另外一個獲取分頁的辦法,就是通過列表頁分頁采集獲取功能來自動獲取分頁。 使用這個功能,起始頁就只需要把首頁地址添加進去就...

cf阿拉维斯如何钻bug www.rxtxrm.com.cn 織夢模板免費下載,無需注冊無需充值

對于設置列表分頁,下圖設置是最常見也是最常用的。

clip_image004

現在教大家另外一個獲取分頁的辦法,就是通過列表頁分頁采集獲取功能來自動獲取分頁。

使用這個功能,起始頁就只需要把首頁地址添加進去就可以了如下圖:

clip_image006

分頁設置是在 “多級網址獲取”里的“列表分頁獲取”如下圖:

clip_image008

上圖“從該區域中提取列表分頁網址”這里就是找到源代碼里面分頁開始和結束,中間包含的地址就分頁地址。

對于那種分頁全部列出來的,設置好這一步就可以了,但是很多情況下分頁都不是完全列出來的,中間會有省略號代替如下圖:

clip_image010

現在針對全部列出,和不是全部列出這2種情況,做一個都適用的設置,我一直都是用這種方式獲取,幾乎解決所有的網站。

我們重要的是要找到當前頁源代碼的特點。我是用//news.qq.com/newsgn/zhxw/shizhengxinwen.htm 這個列表頁來做說明的。

我們看下第一頁分頁源代碼的情況如下圖:

clip_image012

再看下第二頁源代碼的情況如下圖:

clip_image014

然后我們不再一頁一頁看隨便看一頁,查看源代碼我這里選第五頁如下圖:

clip_image016

通過紅色標注,大家看到規律了沒有?當前頁都是<strong></strong>這個代碼后面緊接著一個<a >就是下一頁地址。

也就是說我們是要通過當前頁獲取下一頁,這樣一級一級的向下獲取,直至把所有分頁獲取到。

那么放到采集器里面的表示就是從<div class="pageNav">開始,中間我不管是什么用(*)表示,然后遇到第一個<strong>(*)strong>,因為頁碼也是變化的所以中間我用(*)表示變化的。
然后到再到第一次出現</a> 做為結束,中間包含的就是下一頁地址。

而且分頁地址也有一個規律<a href="//news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 變化的是頁碼數字,變化的用參數來替代,其他是不變化的,那么我們只要獲取變化

的就可以了。

原理就是這樣,在我遇到的分頁都是有這樣的規律的,源代碼肯定是不一樣的,但是規律是一樣的,大家要會舉一反三,不要死腦筋。這里告訴的是方法?。。?!

寫到采集器里面如下圖:

clip_image018

我們可以通過上圖“最多獲取分頁數”來設置要獲取多少頁,0為全部獲取。

右側“組合生成列表頁分頁”我們做了設置的,上圖的“自動識別分頁”就不需要勾選了。最好不要勾選,有時候會出錯。

我上面的截圖都是勾選上的,默認是勾選的,設置好規則了,就把這個勾選取消。

本文地址://www.rxtxrm.com.cn/dedecms_mk/1068.html

    相關閱讀

    發表評論

    評論列表(條)