加勒比一本heyzo高清视频-免费精品无码av片在线观看-无码国产精品一区二区免费模式-去干成人网-成在人线av无码免费

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊
RFID世界網(wǎng) >  解決方案  >  圖書  >  正文

采集器

作者:北京首碼
日期:2008-09-24 11:14:29
摘要:SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規(guī)則,智能采集只需您添加需要采集的網(wǎng)址地址即可,程序會自動為您采集網(wǎng)站的信息。北京首碼偉業(yè)科技有限公司為您介紹兩種采集方式.

    SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規(guī)則,智能采集只需您添加需要采集的網(wǎng)址地址即可,程序會自動為您采集網(wǎng)站的信息。接下來分別為您介紹兩種采集方式:

一、手工采集:

手工采集即自己配置采集規(guī)則。打開 SupeSite 的“系統(tǒng)設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。

首先簡單講解制作采集器的基本原理和思路:

1、確定您要采集哪個頁面的新聞,將這些頁面的地址填入到“列表頁面采集設置”的地址框;

2、確定在這些頁面您要采集的內容區(qū)域,因為不是一個網(wǎng)頁所有的內容都要采集回來,而是采集一個網(wǎng)頁的一部分內容,所以您必須告訴程序您要采集的區(qū)域,也就是“列表區(qū)域識別規(guī)則”;

3、第2步確定區(qū)域之后,還要告訴程序您要采集的文章鏈接,也就是“文章鏈接url識別規(guī)則”。

4、現(xiàn)在已經(jīng)確定了大的采集框架,接下來要告訴程序在一個文章頁面,文章的標題(“文章標題識別規(guī)則”),文章的來源和作者分別是什么。然后就是一篇文章內容的范圍,也就是說一個文章頁面內,真正您需要采集的范圍,就是“文章內容識別規(guī)則”。最后設置分頁的區(qū)域和分頁的鏈接地址。

5、以上4個步驟已經(jīng)確定了采集的范圍,如果您需要過濾標題和內容,請根據(jù)您的要求設置每一項的過濾設置,如“文章標題過濾規(guī)則”和“文章內容過濾規(guī)則”等。

以上幾個步驟確定范圍都是通過查看頁面源碼,進行設置的,截取的方法需要一些經(jīng)驗,練習2--3次就可以領悟到了。

接下來介紹采集器的基本原理和步驟:

第1:打開 SupeSite 的“系統(tǒng)設置”,點擊“資訊管理”的“采集器”,然后點擊“添加新機器人”。

這里需要特別指出的是:單次采集個數(shù)和自動導入。單次采集個數(shù)盡量設置較小的數(shù)字,以免超時。自動導入,請選擇資訊分類,可以直接將采集的結果導入到資訊庫中。如下圖:

第2:填寫“列表頁面采集”和“采集頁面編碼”。請?zhí)顚懸杉捻撁娴刂罚斜眄撁娴刂罚?。這里分為手工輸入和自動輸入:手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼,用[page]代替分頁變量。如下圖:

點擊上圖中的,嘗試鏈接,可以看到如下圖的頁面,這樣可以判斷您的服務器是否可以鏈接到要采集的網(wǎng)站,即檢測服務器是否允許采集,如果這里顯示無法鏈接,則不能采集該網(wǎng)頁。

設置“采集頁面編碼”,是您采集網(wǎng)頁的編碼,并不是您站點的編碼。這里切記?。∪缦聢D:

第3:設置“列表區(qū)域”和“文章鏈接”的識別規(guī)則。如下圖,填入列表區(qū)域的規(guī)則和文章鏈接的規(guī)則,采集內容的范圍用[list]代替,采集文章的標題用[url]代替。文章鏈接URL的剔除和過濾規(guī)則,請您參考圖片里的詳細說明,這里不再贅述。

第4:設置“文章標題”識別規(guī)則,如下圖,文章標題用[subject]代替。文章標題的過濾規(guī)則,剔除規(guī)則,替換規(guī)則,包含關鍵字,請您參考圖片里的詳細說明,這里不再贅述。

第5:設置“文章內容”的識別規(guī)則,如下四圖,都屬于文章內容識別規(guī)則。文章內容用[message]代替,分頁區(qū)域用[pagearea]代替,分頁鏈接用[page]代替,信息來源用[from]代替,文章作者用[author]代替。同上,一些過濾,剔除等規(guī)則,請您參考圖片里的詳細說明,這里不再贅述。

這里說明幾點:

文章內容格式化:此操作將去除網(wǎng)頁多余代,并將文章內容按原有段落分段。格式化的過程為程序自動分析,會存在一些誤差。

保存內容中的圖片到本地和保存內容中的FLASH到本地,這里選擇是否將采集到的圖片和Flash存放到本地。如需將對方網(wǎng)站的圖片存放到自己的服務器上,請選擇“是”!

至此已經(jīng)設置完一個采集規(guī)則,然后點擊“開始采集”,采集完畢之后點擊“查看結果”。最后將采集的內容導入資訊。這里說明一點:采集的內容只能夠導入資訊這個頻道。

這里重點說明,導入后刪除和不刪除,如果選擇刪除,則采集來的信息在導入資訊之后,將無法再次被使用。

二、智能采集:

智能采集為您提供非常簡單,易用的采集方式。只要將您需要采集的站點地址添加到地址框,然后點擊開始采集即可。

智能采集集成于手工采集中,您只需將采集的地址填入地址框,然后點擊提交即可。

如需詳細了解請訪問我們的網(wǎng)站:  http://www.bjbarcode.com     或聯(lián)系我們:010-51296829