網(wǎng)絡(luò)爬蟲(chóng)是一款一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng),該又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者,歡迎需要的下載!
軟件介紹:
NwebCrawler是用C#寫(xiě)的一款多線(xiàn)程網(wǎng)絡(luò)爬蟲(chóng)程序,它的實(shí)現(xiàn)原理是先輸入一個(gè)或多個(gè)種子URL到隊(duì)列中,然后從隊(duì)列中提取URL(先進(jìn)先出原則),分析此網(wǎng)頁(yè)尋找相應(yīng)標(biāo)簽并獲得其href屬性值,爬取有用的鏈接網(wǎng)頁(yè)并存入網(wǎng)頁(yè)庫(kù)中,其中用爬取歷史來(lái)記錄爬過(guò)的網(wǎng)頁(yè),這樣避免了重復(fù)爬取。提取URL存入隊(duì)列中,進(jìn)行下一輪爬取。所以NwebCrawler的搜索策略為廣度優(yōu)先搜索。采用廣度優(yōu)先策略有利于多個(gè)線(xiàn)程并行爬取而且抓取的封閉性很強(qiáng)。
功能介紹:
可配置:線(xiàn)程數(shù),等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級(jí),下載文件夾。
統(tǒng)計(jì)信息:URL數(shù)量,總下載文件,總下載字節(jié)數(shù),CPU利用率和可用內(nèi)存。
Preferential crawler:用戶(hù)可以設(shè)置優(yōu)先級(jí)的MIME類(lèi)型。
Robust: 10+ URL normalization rules, crawler trap avoiding rules.
歡迎下載!