5
新手入門 功能點介紹

【智能模式】【流程圖模式】如何實現斷點續采

2020-03-11 13:25:59
瀏覽 32433 次

摘要:本教程為大家介紹如何實現斷點續采功能 免費下載軟件

在采集的過程中,我們可能會遇到異常停止的情況,如果我們希望再一次啟動任務時從上一次停止的位置開始采集,我們需要使用斷點續采的功能。

由于各種因素,自動斷點續采這個功能現在暫時還無法實現,目前斷點續采有兩種方案:

1、通過去重功能來進行斷點續采

直接在啟動任務時進行數據去重設置,選擇“當所有字段都重復時,跳過繼續采集”。

該方案設置簡單,但是效率較低,設置之后任務仍然會從第一頁開始采集,然后逐個跳過所有已經采集到的數據。

2、通過修改采集范圍、修改網址或添加預操作來進行斷點續采

當任務停止時,軟件的停止界面上會記錄當前任務采集到最后一條時的網址和翻頁次數,一般情況下,停止網址是準確的,但是翻頁次數可能會大于真實的數值,因為如果發生頁面卡住的情況會有空翻頁的次數。

大家可以使用這兩個數值作為斷點續采的參考依據。

1)修改采集范圍(適用于智能模式)

第一步:復制采集停止的網址,參考翻頁次數,找到準確的翻頁次數

第二步:智能模式中直接設置采集范圍的起始頁數值為第一步中的翻頁次數

2)修改網址或添加預操作

一般可以可以分為以下幾種情況:

I、網址會隨著頁碼的變動而變動的網站(適用于智能模式或流程圖模式)

如這種:

http://www.yongcejia.com/?type=list&cat_id=148&page=1

http://www.yongcejia.com/?type=list&cat_id=148&page=2

http://www.yongcejia.com/?type=list&cat_id=148&page=3

http://www.yongcejia.com/?type=list&cat_id=148&page=…..

這種情況下假設我們采集到第4頁時斷掉了,我們可以直接復制第4頁的網址,然后在原任務中修改網址,然后重新采集。

【溫馨提示】如果之前采集到的數據需要保留則不要點擊清空數據。

II、網址不會隨著頁碼的變動而變動的網站(適用于流程圖模式)

如果該網站,無論頁數怎么變動,網址也不會變動的情況下,我們點擊頁面上的分頁按鈕,在操作提示框內選擇點擊“循環點擊該元素”按鈕,此時軟件上會設置一個新的翻頁循環按鈕。

假設之前的任務在第3頁停止,用戶要從第4頁開始采集,則可以在這個翻頁循環上設置自定義翻頁次數“3”。

III、網址不會隨著頁碼的變動而變動,但是頁碼可以通過輸入的方式直接跳轉的網站(適用于智能模式或流程圖模式)

有一些網站的網址雖然不會隨著頁碼的變動而變動,但是頁碼部分有輸入框,可以直接輸入頁數跳轉到相應的頁碼,如以下這種網站:

針對這種網站,我們點擊頁面上的輸入框,在跳轉出的操作提示框內輸入想要跳轉的界面,此處用第4頁來舉例,在輸入框內填入數字“4”之后,點擊確定,軟件上會出現一個輸入文字組件。

我們再點擊頁面上“go”按鈕,在跳轉出來的提示操作框上選擇“點擊一次該元素”按鈕,頁面就會跳轉到第4頁去了。

補充:

我們可以在采集任務中增加特殊字段來記錄采集狀態,包括起始網址(創建任務時輸入的網址)、數據ID、當前頁碼、當頁排名和當前網頁URL。

設置方法如下:

第一步:添加字段

第二步:右擊該字段,在菜單中選擇“改為特殊字段

這個數據直接反應在采集結果中,所以會更加準確。

?

 

 

分享到:
批量下載視頻 python數據采集 網頁下載成word 正則匹配郵箱 python爬蟲 php爬蟲 批量下載圖片 批量生成網址 數據自動整理成excel 網頁內容關鍵字提取
關閉
我偷偷跟亲妺作爱H,妺妺坐在我腿上下面好湿漫画,第1章厨房春潮-我的妺妺H_主页