一、安裝火車采集器
下載地址:http://www.locoy.com/download
下載后解壓至電腦任意目錄,例如D:\LocoySpider,雙擊D:\LocoySpider\LocoySpider.exe打開主程序,如下圖:
注意:運(yùn)行火車采集器要求電腦安裝.NET2.0框架支持。如果主程序無法運(yùn)行,很可能是因?yàn)槟碾娔X沒有安裝.NET2.0框架。.NET2.0框架可以通過以下地址下載:
http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
二、采集前的準(zhǔn)備工作
2.1說明
由于本教程的重點(diǎn)是講解采集入庫,所以采集過程僅簡單介紹。如果要詳細(xì)了解采集過程,請(qǐng)參考以下資源:
火車用戶手冊(cè):http://www.locoy.com/help
火車用戶論壇:http://bbs.locoy.com/
火車采集服務(wù):http://www.locoy.com/Service/DataCrawl/
2.1下載入庫規(guī)則文件
火車采集器的入庫規(guī)則是可以自己制作的,為了便于理解和測(cè)試,本站已經(jīng)做好資訊入庫規(guī)則,請(qǐng)通過以下地址下載:
http://download.destoon.com/tool/spider.zip
下載解壓后,將其中的DESTOON 3.0資訊.cwr 復(fù)制到火車采集器安裝目錄/Module目錄
2.3配置DESTOON采集入庫接口
DESTOON采集入庫接口位于您的站點(diǎn)目錄/api/spider.php。用Editplus或其他編輯軟件打開此文件。
注意:如果您的站點(diǎn)是UTF-8編碼,請(qǐng)不要使用記事本編輯PHP文件。
需要配置的參數(shù),系統(tǒng)已經(jīng)做了中文的注釋,請(qǐng)注意查看。
下面講一下常用的配置:
$verify_mode 一般設(shè)置為2,采用密鑰驗(yàn)證
$spider_auth 設(shè)置一個(gè)最少6位的密鑰,為了配合已經(jīng)配置好的Destoon 3.0資訊.cwr規(guī)則,暫時(shí)請(qǐng)?jiān)O(shè)置為12345678,后面會(huì)詳細(xì)說明。
$spider_status 建議設(shè)置為2,這樣采集到的信息默認(rèn)會(huì)發(fā)布為待審核狀態(tài)。
接口為了安全,默認(rèn)需要修改一下spider.php文件名。為了方便測(cè)試,可以暫時(shí)刪除此限制。注釋掉以下代碼即可:
if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('為了系統(tǒng)安全,請(qǐng)修改接口文件名');
設(shè)置好的配置如下:
三、建立采集站點(diǎn)
本教程將以采集Destoon幫助文檔為例說明。
打開火車采集器主面板,點(diǎn)擊站點(diǎn)菜單,選擇新建站點(diǎn):
四、新建采集任務(wù)
在建立的站點(diǎn)上點(diǎn)右鍵,從該站點(diǎn)新建任務(wù):
五、設(shè)置采集網(wǎng)址規(guī)則
設(shè)置完成之后,點(diǎn)擊開始測(cè)試網(wǎng)址采集:
看到目標(biāo)網(wǎng)址,說明網(wǎng)址規(guī)則設(shè)置成功
六、設(shè)置采集內(nèi)容規(guī)則
打開任意一個(gè)目標(biāo)網(wǎng)址,尋找標(biāo)題、內(nèi)容等字段匹配規(guī)則:
例一:設(shè)置標(biāo)題規(guī)則
例二:設(shè)置內(nèi)容規(guī)則
設(shè)置好字段后,再次測(cè)試:
此時(shí)已經(jīng)采集到正確的內(nèi)容了。
七、設(shè)置采集內(nèi)容發(fā)布
7.1選擇Web在線發(fā)布方式發(fā)布
7.2 定義Web在線發(fā)布全局設(shè)置
點(diǎn)擊添加,可以看到本站提供的Destoon 3.0資訊采集規(guī)則
選擇一個(gè)分類并保存
7.3 選擇已保存的配置
返回到發(fā)布內(nèi)容設(shè)置界面,在表格上點(diǎn)右鍵,選擇添加更多發(fā)布配置
選擇 DT文檔 點(diǎn)擊添加,然后選擇分類
7.4保存任務(wù)
填寫任務(wù)名稱,點(diǎn)擊保存按鈕
八、采集內(nèi)容
在剛才建立的DT文檔任務(wù)上點(diǎn)右鍵,選擇開始任務(wù)采集
軟件提示內(nèi)容發(fā)布成功。
進(jìn)入網(wǎng)站后臺(tái),資訊管理,審核資訊
可以看到采集到的資訊列表,說明發(fā)布成功。
九、采集發(fā)布規(guī)則
為了便于測(cè)試和理解,本教程默認(rèn)提供了一個(gè)規(guī)則,下面講解如果修改或者建立規(guī)則。
在建立的任務(wù)DT文檔上點(diǎn)右鍵,編輯任務(wù),進(jìn)入發(fā)布內(nèi)容設(shè)置,點(diǎn)擊定義web在線發(fā)布全局設(shè)置
如果需要新建一個(gè)發(fā)布規(guī)則,可以采用火車采集器自帶的發(fā)布模塊編輯器新建,也可以將火車采集器安裝目錄/Mdule目錄里的Destoon 3.0資訊.cwr復(fù)制一個(gè)新文件,例如Destoon 3.0供應(yīng).cwr,然后用火車采集器模塊編輯器編輯。
9.1文章發(fā)表參數(shù)
如果需要添加一個(gè)字段,例如作者,可以在Post數(shù)據(jù)里追加&author=[標(biāo)簽:作者],其中author對(duì)應(yīng)Destoon資訊表的字段,[標(biāo)簽:作者]對(duì)應(yīng)采集軟件采集的字段。
如果需要知道Destoon系統(tǒng)某個(gè)模塊具體有那些字段,例如資訊,可以在網(wǎng)站后臺(tái)添加資訊或者會(huì)員中心發(fā)布資訊點(diǎn)右鍵,查看網(wǎng)頁源代碼,形如name=”post[xxxx]”中的xxxx即為字段,和數(shù)據(jù)庫中表的字段名稱一致。
備注:本教程提供的規(guī)則定義了發(fā)布地址為/api/spider.php,所以在配置spider.php參數(shù)時(shí),刪除了系統(tǒng)對(duì)文件名的設(shè)置。同時(shí)定義了發(fā)送的密鑰auth為12345678,所以在配置spider.php參數(shù)時(shí)設(shè)置了$spider_auth = '12345678';
9.2刷新列表設(shè)置
刷新列表設(shè)置用于獲取Destoon模塊的分類內(nèi)容,各個(gè)模塊的設(shè)置是一致的,但是需要修改其中的moduleid參數(shù)。
十、小結(jié)
對(duì)于有PHP基礎(chǔ)的用戶,可以直接修改spider.php接口代碼,然后配合采集器發(fā)送的數(shù)據(jù),實(shí)現(xiàn)更多內(nèi)容的入庫。
網(wǎng)站起步階段,適量采集,并非有500G的空間就可以采集500G的數(shù)據(jù),以免CPU和內(nèi)存配置不匹配導(dǎo)致站點(diǎn)運(yùn)行卡頓。
采集是一把雙刃劍,在帶來便利的同時(shí)也面臨被搜索引擎懲罰或版權(quán)糾紛的風(fēng)險(xiǎn),請(qǐng)慎用。