火車頭采集器是一款非常好用的網(wǎng)絡(luò)爬蟲工具,利用VisualC#編寫產(chǎn)品,專門用于網(wǎng)絡(luò)數(shù)據(jù)
采集.分析.加工.挖掘。環(huán)境友好、安裝方便,主要用于網(wǎng)絡(luò)數(shù)據(jù)處理,可快速、靈活地抓取網(wǎng)頁上大量的非結(jié)構(gòu)化文本。火車頭集集提供一站式、高效率的采集服務(wù),支持多種類型的
數(shù)據(jù)庫,通過一系列分析處理方法,實現(xiàn)多線程采集。精益求精地挖掘所需數(shù)據(jù),其強大的識別系統(tǒng),積累了大量的用戶并獲得了良好的口碑,能夠準確地識別各種編碼文字,能夠滿足各種數(shù)據(jù)處理的需求。
火車頭采集器功能技巧圖1
火車頭收集器選單功能簡介:
火車頭采集器功能技巧圖2
1.組建新小組。
請選擇要加入的組、新建任務(wù)分組、確定組名稱和標記。
2.安排新工作。
新建任務(wù),決定要加入的組,填寫任務(wù)名,然后保存。
3.Web發(fā)布配置。
決定要登錄的
網(wǎng)站,并向網(wǎng)站提交數(shù)據(jù)。包含站點編碼設(shè)置,登錄信息獲取,獲得欄目列表等。
4.因特網(wǎng)發(fā)布單位。
獲取列表項,可以定義網(wǎng)站的登錄,獲取網(wǎng)頁隨機值,內(nèi)容發(fā)布參數(shù),構(gòu)建發(fā)布數(shù)據(jù)等高級功能。
5.數(shù)據(jù)庫分發(fā)架構(gòu)。
用于數(shù)據(jù)庫連接信息和數(shù)據(jù)庫模塊的設(shè)置。
6.數(shù)據(jù)庫分發(fā)單元。
在對數(shù)據(jù)庫進行編輯時,列車采集器可以選擇四種數(shù)據(jù)庫類型,方便我們將數(shù)據(jù)發(fā)布到配置數(shù)據(jù)庫中。把sql語句加載到采集器模塊文件夾,然后將sql語句填充到文本輸入框中。
7.制定任務(wù)。
設(shè)置收集任務(wù)的啟動計劃,保存設(shè)置后,任務(wù)就可以根據(jù)設(shè)置執(zhí)行。
8.插件的管理。
這個插件是可以用來擴展列車采集功能的程序,它支持三個插件,可以擴展http請求,并可以單獨測試。
9.http二級代理。
可以讓網(wǎng)絡(luò)用戶得到需要的網(wǎng)絡(luò)信息。能突破自己ip的訪問限制,訪問國外網(wǎng)站,訪問部分單位或團隊內(nèi)部資源。
火車頭采集器功能技巧圖3
火車頭收集器使用技巧
首先獲取規(guī)則制作,設(shè)置開始的Web地址,點擊添加向?qū),將出現(xiàn)以下界面。
批量網(wǎng)址可采用三種方式:普通網(wǎng)站、文本導(dǎo)入。
火車頭采集器功能技巧圖4
1.普通網(wǎng)址:網(wǎng)站不作任何解析,直接加入到網(wǎng)站中。
2.批量網(wǎng)址:以通用表達式,批量生成網(wǎng)址。
3.文本導(dǎo)入:網(wǎng)址是一行文本的一行文本。
要轉(zhuǎn)換原始數(shù)據(jù)庫請勾選轉(zhuǎn)換內(nèi)容庫,否則數(shù)據(jù)庫內(nèi)容將被清空。
- 軟件性質(zhì):國產(chǎn)軟件
- 授權(quán)方式:免費版
- 軟件語言:簡體中文
- 軟件大。23789 KB
- 下載次數(shù):5209 次
- 更新時間:2022/1/17 1:14:41
- 運行平臺:WinAll...
- 軟件描述:火車采集器是使用人數(shù)比較多的互聯(lián)網(wǎng)數(shù)據(jù)挖掘軟件。能采集99%的網(wǎng)頁,就算網(wǎng)頁需要... [立即下載]