西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴(lài)的軟件下載站!
西西首頁(yè) 安卓軟件 安卓游戲 電腦軟件 軟件教程 專(zhuān)題合集

網(wǎng)絡(luò)爬蟲(chóng)工具(NWebCrawler)

v1.0.1綠色版
  • 網(wǎng)絡(luò)爬蟲(chóng)工具(NWebCrawler)v1.0.1綠色版
  • 軟件類(lèi)型:國(guó)產(chǎn)軟件 / 免費(fèi)軟件
  • 軟件大小:116KB
  • 更新時(shí)間:2015-06-23 17:23
  • 應(yīng)用平臺(tái):WinAll
  • 軟件語(yǔ)言:中文
  • 軟件等級(jí):4級(jí)
  • 官方網(wǎng)站:http://www.elephantinaurance.com
5.0
0
好用
0
難用
  • 軟件簡(jiǎn)介
  • 軟件截圖
  • 軟件評(píng)論
  • 軟件推薦

網(wǎng)絡(luò)爬蟲(chóng)是一款一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng),該又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者,歡迎需要的下載!

軟件介紹:

NwebCrawler是用C#寫(xiě)的一款多線(xiàn)程網(wǎng)絡(luò)爬蟲(chóng)程序,它的實(shí)現(xiàn)原理是先輸入一個(gè)或多個(gè)種子URL到隊(duì)列中,然后從隊(duì)列中提取URL(先進(jìn)先出原則),分析此網(wǎng)頁(yè)尋找相應(yīng)標(biāo)簽并獲得其href屬性值,爬取有用的鏈接網(wǎng)頁(yè)并存入網(wǎng)頁(yè)庫(kù)中,其中用爬取歷史來(lái)記錄爬過(guò)的網(wǎng)頁(yè),這樣避免了重復(fù)爬取。提取URL存入隊(duì)列中,進(jìn)行下一輪爬取。所以NwebCrawler的搜索策略為廣度優(yōu)先搜索。采用廣度優(yōu)先策略有利于多個(gè)線(xiàn)程并行爬取而且抓取的封閉性很強(qiáng)。

功能介紹:

可配置:線(xiàn)程數(shù),等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級(jí),下載文件夾。

統(tǒng)計(jì)信息:URL數(shù)量,總下載文件,總下載字節(jié)數(shù),CPU利用率和可用內(nèi)存。

Preferential crawler:用戶(hù)可以設(shè)置優(yōu)先級(jí)的MIME類(lèi)型。

Robust: 10+ URL normalization rules, crawler trap avoiding rules.

歡迎下載!

其他版本下載

發(fā)表評(píng)論

昵稱(chēng):
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評(píng)論 > 字?jǐn)?shù): 0/500