5
新手入門 功能點介紹

【智能模式】如何倒序采集網頁數據

2023-04-18 14:30:59
瀏覽 3338 次

摘要:在數據采集的時候,經常會需要倒序采集(從最后一頁開始往前采集數據)的情況。本文將簡單說明如何使用后羿采集器的智能模式進行網頁數據的倒序采集。 免費下載軟件

在數據采集的時候,經常會需要倒序采集(從最后一頁開始往前采集數據)的情況。本文將簡單說明如何使用后羿采集器的智能模式進行網頁數據的倒序采集。

情況一:列表頁翻頁后,鏈接改變,存在最后一頁鏈接

處理方式一:將列表頁最后一頁鏈接作為采集鏈接

當我們能夠直接拿到網站列表頁最后一頁的鏈接時,可以通過直接復制鏈接的形式,用最后一頁的鏈接來創建采集任務。

1. 在瀏覽器里點擊到最后一頁,復制最后一頁的鏈接。

2. 創建一個智能模式采集任務。

3. 設置分頁按鈕,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。

處理方式二:批量設置倒序頁碼

當網站的鏈接會根據翻頁而改變,卻沒有“上一頁”按鈕實現往前翻頁的操作時,可以通過設置頁碼來實現倒序采集。

1. 復制第二頁的鏈接。一般來說第一頁的鏈接有可能跟第二頁、第三頁的鏈接有差別,沒法直接通過第一頁的鏈接來找規律生成鏈接,所以建議是直接復制第二頁的鏈接來創建任務。

2. 利用批量生成網址功能來生成鏈接。如下圖所示,“起始”設置成“最后一頁”,“截至”設置成“第一頁”,“步長”選擇“遞減”。

詳細的操作流程請參考教程:如何批量生成網址

3. 設置分頁按鈕。已經批量生成網址的情況下,就不需要設置翻頁按鈕了??梢詫⒎摪粹o設置成“不啟用”。如果頁面內容較多需要滾動才能顯示更多的數據,建議設置成“瀑布流分頁(滾動加載)”。

4. 啟動任務開始倒序采集。

情況二:列表頁翻頁后,鏈接不變,不存在最后一頁鏈接

處理方式一:網頁存在跳轉到最后一頁的按鈕

當網站的鏈接不會根據翻頁而改變,我們無法直接拿到最后一頁的鏈接時,我們可以通過直接點擊最后一頁的翻頁按鈕來跳轉到最后一頁,實現倒序采集。

1. 創建一個智能模式采集任務。

2. 在預執行操作界面添加點擊組件,翻頁到最后一頁。

3. 設置分頁按鈕,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。

處理方式二:網頁存在頁碼輸入框

當網站的鏈接不會根據翻頁而改變,我們無法直接拿到最后一頁的鏈接時,我們可以通過直接輸入最后一頁的頁碼來跳轉到最后一頁,實現倒序采集。

1. 創建一個智能模式采集任務。

2. 在預執行操作界面添加“輸入文本”組件和“點擊”組件,翻頁到最后一頁。

3. 設置分頁按鈕,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。

分享到:
php爬蟲 網頁下載成word 數據自動整理成excel 批量下載圖片 python數據采集 批量生成網址 python爬蟲 網頁內容關鍵字提取 正則匹配郵箱 批量下載視頻
關閉
我偷偷跟亲妺作爱H,妺妺坐在我腿上下面好湿漫画,第1章厨房春潮-我的妺妺H_主页