
火車采集器V7正式版新版本對程序進行了完全的重構,是一個全新的采集平臺;疖囶^采集器v7.6企業(yè)版包含了數(shù)據(jù)采集最常用的計劃任務,數(shù)據(jù)發(fā)布,正文識別、OCR圖形圖像識別,采集入庫等模塊,可以支持其它采集軟件快速穩(wěn)定在平臺上使用。
火車采集器的產(chǎn)品特點:
軟件特性
1、無限級多頁采集,可以實現(xiàn)無限深度的采集
2、任務隊列運行管理,支持Cron表達式
3、無限級分組任務管理,任務回收站功能
4、RSS地址采集功能
5、列表頁分頁采集獲取功能
6、列表頁附加參數(shù)獲取功能
7、列表頁及標簽XPath可視化提取功能
8、標簽純正則替換功能
9、Http接口查看運行情況
10、導出記錄為單個或多個Txt、html 文件
11、標簽間自由組合功能
12、針對標簽內(nèi)容繼續(xù)發(fā)送Http請求功能
13、無限級列表網(wǎng)址采集
14、從Http頭信息中獲取數(shù)據(jù)
15、標題內(nèi)容正文提取功能
16、Aspx列表分頁自識別
17、多網(wǎng)站站群式web發(fā)布
18、導出記錄為Word格式
19、導出所有記錄為Excel格式
20、使用隨機二級代理服務器(支持Socket代理)
21、多擴展間數(shù)據(jù)交換功能
22、下載的圖片自動加增強型水印功能
23、Ocr識別(圖片轉化為文字)
24、Http接口管理采集器運行
25、Mongodb數(shù)據(jù)庫保存數(shù)據(jù)
26、主從服務器分布式采集
更新日志
火車采集器v7.6綠色正式版更新列表:
1、gif的圖片不再加水印,修復加水印文字時沒有判斷加水印條件的問題;
2、增加了迅雷快傳,YunFile,千腦,金山網(wǎng)盤文件上傳功能;
3、增加了用戶可以選擇刪除記錄時是否刪除下載文件的選項;
4、增加了日志記錄,通過上傳文件功能;
5、增加了批量導入數(shù)據(jù)導入網(wǎng)址功能;
6、添加了發(fā)布時使用代理功能;
7、修復當使用一般采一邊發(fā)方式時保存為本地excel不起作用的bug;
8、文件保存格式中支持[標簽:ID],可以將記錄的id做為目錄的一部分了;
9、處理了一個將$編碼錯誤的問題;
10、增加若干個錯誤檢查,防止采集器退出;
11、更換漢字轉拼音詞庫,漢字增加到1萬8;
12、更新自動補全鏈接中迅雷地址補全不對的問題。
軟件安裝使用說明:
火車頭采集平臺定義了統(tǒng)一的接口規(guī)范并提供了大量的api,用戶可以很方便的開發(fā)自己的應用并在該平臺上運行,可以減少開發(fā)上時間和成本。目前平臺上有官方自帶火車采集器。
此軟件版本為火車采集器v7.7綠色正式版,軟件下載后直接解壓即可。注意:軟件運行時,要有.net2.0框架,vista及win7系統(tǒng)用戶可能會提示請求管理員權限,請放行。如果沒有請下載!
安裝說明★★
火車頭數(shù)據(jù)采集平臺要求:您的電腦必須安裝.net framework2.0或2.0以上框架.如果您的采集器打不開,請下載并安裝該框架
32位下載地址:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下載地址:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe
升級說明
若要從3.2sp5,2008,2009或2010版直接升級到火車頭數(shù)據(jù)采集平臺最新版,請運行程序目錄下的 UpdateToV7.exe,按提示進行升級。升級程序不會對原來的數(shù)據(jù)進行任何的修改,但為了防止用戶誤操作,請在升級前備份舊版本數(shù)據(jù)和配置。備份方法是將原采集器完整復制一份。
采集相關術語
1.采集規(guī)則
簡稱規(guī)則,V7以前版本采集規(guī)則分為站點規(guī)則和任務規(guī)則,通常是指任務規(guī)則。V7版及以后采用無限級分組管理任務規(guī)則,所以不再有站點規(guī)則的概念。所謂采集規(guī)則就是要采集一個網(wǎng)站或某一網(wǎng)站欄目網(wǎng)頁需要在軟件里進行的設置。這個設置可以從軟件里導出保存成一個文件并可以再導入到軟件里。V7版的任務規(guī)則文件后綴名為.ljobx,以前的站點規(guī)則文件的后綴名為:.lsite;任務規(guī)則文件的后綴名為:.ljob。
2.采集任務
采集任務又簡稱為任務。它是采集規(guī)則和發(fā)布規(guī)則的總和。也是采集規(guī)則和發(fā)布規(guī)則的載體。采集規(guī)則和發(fā)布規(guī)則的設置通過在任務編輯框里進行設置。從采集器里導出的采集規(guī)則文件(.ljobx后綴的)也可稱為任務規(guī)則。導入導出任務規(guī)則就是指導入導出.ljobx文件。
3.發(fā)布模塊
發(fā)布模塊又稱模塊、發(fā)布規(guī)則,分為WEB發(fā)布模塊和數(shù)據(jù)庫發(fā)布模塊。所謂發(fā)布模塊就是在需要將已經(jīng)采集的數(shù)據(jù)發(fā)布到目的地(比如:網(wǎng)站/后臺中或指定數(shù)據(jù)庫中)時在軟件里進行的設置。這個設置可以保存成一個文件并可以導入到采集器里使用。數(shù)據(jù)庫發(fā)布模塊文件的后綴名為:.dpm;WEB在線發(fā)布模塊文件的后綴名為:.wpm。(采集規(guī)則和發(fā)布模塊都可以從采集器里導出,也都可以導入到采集器中使用。采集規(guī)則負責將網(wǎng)頁上的數(shù)據(jù)采集下來,發(fā)布模塊負責將采集的數(shù)據(jù)發(fā)布到網(wǎng)站中。可見,采集規(guī)則的編寫和修改和被采集的網(wǎng)站有關系,而發(fā)布模塊的編寫和修改和要發(fā)布數(shù)據(jù)的網(wǎng)站有關系。如從不同的網(wǎng)站欄目采集數(shù)據(jù)往同一個網(wǎng)站的某個板塊(頻道)里發(fā)布,需要多個采集規(guī)則和一個發(fā)布模塊。從一個網(wǎng)站欄目采集數(shù)據(jù)往不同的網(wǎng)站系統(tǒng)里發(fā)布,需要一個采集規(guī)則和多個發(fā)布模塊。注意這里的說的采集規(guī)則是指采集網(wǎng)站和抓取內(nèi)容的設置。)