火車采集器XPath提取教程

時間：2017-05-10 10:55:43 作者：不思議游戲瀏覽量：100

XPath提取

XPath 是一門在 HTML/XML 文檔中查找信息的語言。
XPath 使用路徑表達式在 XML 文檔中進行導(dǎo)航,可以通過FireFox firebug 或者Chrome 開發(fā)者工具快速獲取。
XPath節(jié)點屬性

innerHTML 獲取位于對象起始和結(jié)束標簽內(nèi)的 HTML (HTML代碼，不包含開始/結(jié)束代碼)
innerText 獲取位于對象起始和結(jié)束標簽內(nèi)的文本 (文本字段，不包含開始/結(jié)束代碼)
outerHTML 獲取對象及其內(nèi)容的 HTML 形式 (HTML代碼，包含開始/結(jié)束代碼)
Href 獲取超鏈接
以網(wǎng)址 http://faq.locoy.com/q-681.html 為例，我們來設(shè)置標題和內(nèi)容的XPath表達式，節(jié)點屬性我們默認innerHTML就可以。

方法/步驟

1、首先，用谷歌瀏覽器打開網(wǎng)頁，然后打開Chrome開發(fā)者工具，快捷鍵為 “ F12 ”，反復(fù)按下F12可以切換狀態(tài)（打開或關(guān)閉）。當(dāng)然，你也可以在原網(wǎng)頁，直接右擊“審查元素”。

2、獲取標題的XPath，操作如下圖：

獲取標題

得出代碼為 //*[@id="mainContent"]/div[2]/h2

得出代碼

3、獲取內(nèi)容的XPath，操作如下圖：

獲取內(nèi)容

得出代碼為 //*[@id="cmsContent"]

然后放入即可。

火車采集器 9.8.0 官方版

軟件性質(zhì)：國產(chǎn)軟件
授權(quán)方式：免費版
軟件語言：簡體中文
軟件大�。�23789 KB
下載次數(shù)：2977 次
更新時間：2019/4/8 17:01:06
運行平臺：WinAll...
軟件描述：火車采集器是使用人數(shù)比較多的互聯(lián)網(wǎng)數(shù)據(jù)挖掘軟件。能采集99%的網(wǎng)頁，就算網(wǎng)頁需要... [立即下載]

火車采集器XPath提取教程

火車采集器 9.8.0 官方版

相關(guān)資訊

相關(guān)軟件

更多常用電腦軟件