采集器
SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規(guī)則,智能采集只需您添加需要采集的網(wǎng)址地址即可,程序會自動為您采集網(wǎng)站的信息。接下來分別為您介紹兩種采集方式:
一、手工采集:
手工采集即自己配置采集規(guī)則。打開 SupeSite 的“系統(tǒng)設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。
首先簡單講解制作采集器的基本原理和思路:
1、確定您要采集哪個頁面的新聞,將這些頁面的地址填入到“列表頁面采集設置”的地址框;
2、確定在這些頁面您要采集的內容區(qū)域,因為不是一個網(wǎng)頁所有的內容都要采集回來,而是采集一個網(wǎng)頁的一部分內容,所以您必須告訴程序您要采集的區(qū)域,也就是“列表區(qū)域識別規(guī)則”;
3、第2步確定區(qū)域之后,還要告訴程序您要采集的文章鏈接,也就是“文章鏈接url識別規(guī)則”。
4、現(xiàn)在已經(jīng)確定了大的采集框架,接下來要告訴程序在一個文章頁面,文章的標題(“文章標題識別規(guī)則”),文章的來源和作者分別是什么。然后就是一篇文章內容的范圍,也就是說一個文章頁面內,真正您需要采集的范圍,就是“文章內容識別規(guī)則”。最后設置分頁的區(qū)域和分頁的鏈接地址。
5、以上4個步驟已經(jīng)確定了采集的范圍,如果您需要過濾標題和內容,請根據(jù)您的要求設置每一項的過濾設置,如“文章標題過濾規(guī)則”和“文章內容過濾規(guī)則”等。
以上幾個步驟確定范圍都是通過查看頁面源碼,進行設置的,截取的方法需要一些經(jīng)驗,練習2--3次就可以領悟到了。
接下來介紹采集器的基本原理和步驟:
第1:打開 SupeSite 的“系統(tǒng)設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。
這里需要特別指出的是:單次采集個數(shù)和自動導入。單次采集個數(shù)盡量設置較小的數(shù)字,以免超時。自動導入,請選擇資訊分類,可以直接將采集的結果導入到資訊庫中。如下圖:
第2:填寫“列表頁面采集”和“采集頁面編碼”。請?zhí)顚懸杉捻撁娴刂罚斜眄撁娴刂罚?。這里分為手工輸入和自動輸入:手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼,用[page]代替分頁變量。如下圖:
點擊上圖中的,嘗試鏈接,可以看到如下圖的頁面,這樣可以判斷您的服務器是否可以鏈接到要采集的網(wǎng)站,即檢測服務器是否允許采集,如果這里顯示無法鏈接,則不能采集該網(wǎng)頁。
設置“采集頁面編碼”,是您采集網(wǎng)頁的編碼,并不是您站點的編碼。這里切記?。∪缦聢D:
第3:設置“列表區(qū)域”和“文章鏈接”的識別規(guī)則。如下圖,填入列表區(qū)域的規(guī)則和文章鏈接的規(guī)則,采集內容的范圍用[list]代替,采集文章的標題用[url]代替。文章鏈接URL的剔除和過濾規(guī)則,請您參考圖片里的詳細說明,這里不再贅述。
第4:設置“文章標題”識別規(guī)則,如下圖,文章標題用[subject]代替。文章標題的過濾規(guī)則,剔除規(guī)則,替換規(guī)則,包含關鍵字,請您參考圖片里的詳細說明,這里不再贅述。
第5:設置“文章內容”的識別規(guī)則,如下四圖,都屬于文章內容識別規(guī)則。文章內容用[message]代替,分頁區(qū)域用[pagearea]代替,分頁鏈接用[page]代替,信息來源用[from]代替,文章作者用[author]代替。同上,一些過濾,剔除等規(guī)則,請您參考圖片里的詳細說明,這里不再贅述。
這里說明幾點:
文章內容格式化:此操作將去除網(wǎng)頁多余代,并將文章內容按原有段落分段。格式化的過程為程序自動分析,會存在一些誤差。
保存內容中的圖片到本地和保存內容中的FLASH到本地,這里選擇是否將采集到的圖片和Flash存放到本地。如需將對方網(wǎng)站的圖片存放到自己的服務器上,請選擇“是”!
至此已經(jīng)設置完一個采集規(guī)則,然后點擊“開始采集”,采集完畢之后點擊“查看結果”。最后將采集的內容導入資訊。這里說明一點:采集的內容只能夠導入資訊這個頻道。
這里重點說明,導入后刪除和不刪除,如果選擇刪除,則采集來的信息在導入資訊之后,將無法再次被使用。
二、智能采集:
智能采集為您提供非常簡單,易用的采集方式。只要將您需要采集的站點地址添加到地址框,然后點擊開始采集即可。
智能采集集成于手工采集中,您只需將采集的地址填入地址框,然后點擊提交即可。
如需詳細了解請訪問我們的網(wǎng)站: http://www.bjbarcode.com 或聯(lián)系我們:010-51296829