時間:2017-05-10 10:55:43 作者:不思議游戲 瀏覽量:100
XPath提取
XPath 是一門在 HTML/XML 文檔中查找信息的語言。
XPath 使用路徑表達式在 XML 文檔中進行導(dǎo)航,可以通過FireFox firebug 或者Chrome 開發(fā)者工具快速獲取。
XPath節(jié)點屬性
innerHTML 獲取位于對象起始和結(jié)束標簽內(nèi)的 HTML (HTML代碼,不包含開始/結(jié)束代碼)
innerText 獲取位于對象起始和結(jié)束標簽內(nèi)的文本 (文本字段,不包含開始/結(jié)束代碼)
outerHTML 獲取對象及其內(nèi)容的 HTML 形式 (HTML代碼,包含開始/結(jié)束代碼)
Href 獲取超鏈接
以網(wǎng)址 http://faq.locoy.com/q-681.html 為例,我們來設(shè)置標題和內(nèi)容的XPath表達式,節(jié)點屬性 我們默認innerHTML就可以。
方法/步驟
1、首先,用谷歌瀏覽器打開 網(wǎng)頁, 然后打開Chrome開發(fā)者工具,快捷鍵為 “ F12 ”,反復(fù)按下F12可以切換狀態(tài)(打開或關(guān)閉)。 當(dāng)然,你也可以在原網(wǎng)頁,直接右擊“審查元素”。
2、獲取標題的XPath,操作如下圖:
得出代碼為 //*[@id="mainContent"]/div[2]/h2
3、獲取內(nèi)容的XPath,操作如下圖:
得出代碼為 //*[@id="cmsContent"]
然后放入即可。