2023-10-10 88725

首頁 » 文檔 » 高級(jí)技巧

火車采集器采集入庫教程

一、安裝火車采集器

下載地址:http://www.locoy.com/download

下載后解壓至電腦任意目錄,例如D:\LocoySpider,雙擊D:\LocoySpider\LocoySpider.exe打開主程序,如下圖:

注意:運(yùn)行火車采集器要求電腦安裝.NET2.0框架支持。如果主程序無法運(yùn)行,很可能是因?yàn)槟碾娔X沒有安裝.NET2.0框架。.NET2.0框架可以通過以下地址下載:

http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe

二、采集前的準(zhǔn)備工作

2.1說明

由于本教程的重點(diǎn)是講解采集入庫,所以采集過程僅簡單介紹。如果要詳細(xì)了解采集過程,請(qǐng)參考以下資源:

火車用戶手冊(cè):http://www.locoy.com/help

火車用戶論壇:http://bbs.locoy.com/

火車采集服務(wù):http://www.locoy.com/Service/DataCrawl/

2.1下載入庫規(guī)則文件

火車采集器的入庫規(guī)則是可以自己制作的,為了便于理解和測(cè)試,本站已經(jīng)做好資訊入庫規(guī)則,請(qǐng)通過以下地址下載:

http://download.destoon.com/tool/spider.zip

下載解壓后,將其中的DESTOON 3.0資訊.cwr 復(fù)制到火車采集器安裝目錄/Module目錄

2.3配置DESTOON采集入庫接口

DESTOON采集入庫接口位于您的站點(diǎn)目錄/api/spider.php。用Editplus或其他編輯軟件打開此文件。

注意:如果您的站點(diǎn)是UTF-8編碼,請(qǐng)不要使用記事本編輯PHP文件。

需要配置的參數(shù),系統(tǒng)已經(jīng)做了中文的注釋,請(qǐng)注意查看。

下面講一下常用的配置:

$verify_mode 一般設(shè)置為2,采用密鑰驗(yàn)證

$spider_auth 設(shè)置一個(gè)最少6位的密鑰,為了配合已經(jīng)配置好的Destoon 3.0資訊.cwr規(guī)則,暫時(shí)請(qǐng)?jiān)O(shè)置為12345678,后面會(huì)詳細(xì)說明。

$spider_status 建議設(shè)置為2,這樣采集到的信息默認(rèn)會(huì)發(fā)布為待審核狀態(tài)。

接口為了安全,默認(rèn)需要修改一下spider.php文件名。為了方便測(cè)試,可以暫時(shí)刪除此限制。注釋掉以下代碼即可:

if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('為了系統(tǒng)安全,請(qǐng)修改接口文件名');

設(shè)置好的配置如下:

三、建立采集站點(diǎn)

本教程將以采集Destoon幫助文檔為例說明。

打開火車采集器主面板,點(diǎn)擊站點(diǎn)菜單,選擇新建站點(diǎn):

四、新建采集任務(wù)

在建立的站點(diǎn)上點(diǎn)右鍵,從該站點(diǎn)新建任務(wù):

五、設(shè)置采集網(wǎng)址規(guī)則

設(shè)置完成之后,點(diǎn)擊開始測(cè)試網(wǎng)址采集:

看到目標(biāo)網(wǎng)址,說明網(wǎng)址規(guī)則設(shè)置成功

六、設(shè)置采集內(nèi)容規(guī)則

打開任意一個(gè)目標(biāo)網(wǎng)址,尋找標(biāo)題、內(nèi)容等字段匹配規(guī)則:

例一:設(shè)置標(biāo)題規(guī)則

例二:設(shè)置內(nèi)容規(guī)則

設(shè)置好字段后,再次測(cè)試:

此時(shí)已經(jīng)采集到正確的內(nèi)容了。

七、設(shè)置采集內(nèi)容發(fā)布

7.1選擇Web在線發(fā)布方式發(fā)布

7.2 定義Web在線發(fā)布全局設(shè)置

點(diǎn)擊添加,可以看到本站提供的Destoon 3.0資訊采集規(guī)則

選擇一個(gè)分類并保存

7.3 選擇已保存的配置

返回到發(fā)布內(nèi)容設(shè)置界面,在表格上點(diǎn)右鍵,選擇添加更多發(fā)布配置

選擇 DT文檔 點(diǎn)擊添加,然后選擇分類

7.4保存任務(wù)

填寫任務(wù)名稱,點(diǎn)擊保存按鈕

八、采集內(nèi)容

在剛才建立的DT文檔任務(wù)上點(diǎn)右鍵,選擇開始任務(wù)采集

軟件提示內(nèi)容發(fā)布成功。

進(jìn)入網(wǎng)站后臺(tái),資訊管理,審核資訊

可以看到采集到的資訊列表,說明發(fā)布成功。

九、采集發(fā)布規(guī)則

 

為了便于測(cè)試和理解,本教程默認(rèn)提供了一個(gè)規(guī)則,下面講解如果修改或者建立規(guī)則。

在建立的任務(wù)DT文檔上點(diǎn)右鍵,編輯任務(wù),進(jìn)入發(fā)布內(nèi)容設(shè)置,點(diǎn)擊定義web在線發(fā)布全局設(shè)置

如果需要新建一個(gè)發(fā)布規(guī)則,可以采用火車采集器自帶的發(fā)布模塊編輯器新建,也可以將火車采集器安裝目錄/Mdule目錄里的Destoon 3.0資訊.cwr復(fù)制一個(gè)新文件,例如Destoon 3.0供應(yīng).cwr,然后用火車采集器模塊編輯器編輯。

9.1文章發(fā)表參數(shù)

如果需要添加一個(gè)字段,例如作者,可以在Post數(shù)據(jù)里追加&author=[標(biāo)簽:作者],其中author對(duì)應(yīng)Destoon資訊表的字段,[標(biāo)簽:作者]對(duì)應(yīng)采集軟件采集的字段。

如果需要知道Destoon系統(tǒng)某個(gè)模塊具體有那些字段,例如資訊,可以在網(wǎng)站后臺(tái)添加資訊或者會(huì)員中心發(fā)布資訊點(diǎn)右鍵,查看網(wǎng)頁源代碼,形如name=”post[xxxx]”中的xxxx即為字段,和數(shù)據(jù)庫中表的字段名稱一致。

備注:本教程提供的規(guī)則定義了發(fā)布地址為/api/spider.php,所以在配置spider.php參數(shù)時(shí),刪除了系統(tǒng)對(duì)文件名的設(shè)置。同時(shí)定義了發(fā)送的密鑰auth為12345678,所以在配置spider.php參數(shù)時(shí)設(shè)置了$spider_auth = '12345678';

9.2刷新列表設(shè)置

刷新列表設(shè)置用于獲取Destoon模塊的分類內(nèi)容,各個(gè)模塊的設(shè)置是一致的,但是需要修改其中的moduleid參數(shù)。

十、小結(jié)

對(duì)于有PHP基礎(chǔ)的用戶,可以直接修改spider.php接口代碼,然后配合采集器發(fā)送的數(shù)據(jù),實(shí)現(xiàn)更多內(nèi)容的入庫。

網(wǎng)站起步階段,適量采集,并非有500G的空間就可以采集500G的數(shù)據(jù),以免CPU和內(nèi)存配置不匹配導(dǎo)致站點(diǎn)運(yùn)行卡頓。

采集是一把雙刃劍,在帶來便利的同時(shí)也面臨被搜索引擎懲罰或版權(quán)糾紛的風(fēng)險(xiǎn),請(qǐng)慎用。

火車采集器 火車頭 采集 入庫
以上內(nèi)容是否對(duì)您有幫助?點(diǎn)擊反饋加群交流

 
公司簡介   |   聯(lián)系方式   |   合作代理   |   隱私政策   |   使用協(xié)議   |   意見反饋    
主站蜘蛛池模板: 天天av天天翘天天综合网| 久久综合色之久久综合| 狠狠色婷婷狠狠狠亚洲综合| 国产综合第一页| 99久久伊人精品综合观看| 亚洲AV成人潮喷综合网| 久久婷婷五月综合成人D啪| 色综合久久中文综合网| 伊人情人综合成人久久网小说| 亚洲国产成人久久综合一区77| 婷婷亚洲综合五月天小说| 亚洲欧美精品综合中文字幕| 亚洲精品欧美综合在线| 欧美综合区自拍亚洲综合天堂| 色噜噜狠狠狠狠色综合久一| 五月天综合网| 一本久久知道综合久久| 亚洲综合日韩精品欧美综合区| 色婷婷综合和线在线| 狠狠色婷婷久久综合频道日韩 | 色久综合网精品一区二区| 色婷婷久久综合中文久久一本 | 久久国产综合精品五月天| 亚洲综合无码精品一区二区三区| 色婷婷综合缴情综免费观看| 亚洲精品国产第一综合99久久| 狠狠色成人综合网图片区 | 色综合天天综合网站中国| 伊人久久综合无码成人网| 色综合久久88色综合天天 | 婷婷亚洲综合五月天小说| 色欲老女人人妻综合网| 久久综合久久自在自线精品自 | 色久悠悠婷婷综合在线亚洲| 久久综合久久久| 色噜噜狠狠成人中文综合| 色噜噜狠狠色综合日日| 国产成人综合亚洲欧美天堂| 亚洲国产成人精品无码久久久久久综合| 日本一道综合色视频| 欧美日韩国产综合视频在线看|