webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

关于webmagic中xpath = "//doc//text()"中text()的问题

Open zark721 opened this issue 7 years ago • 3 comments

xpath = "//doc//text()" 表达的应该是 所有doc节点下面的所有text文本。但是并没有取到所有的文本。 后来我切换成xpath = "//doc/allText()" 就可以获得所有文本了,这两者//text() 和 /allText()有什么区别的吗?

或者说webmagic里面 "//text()" 的xpath规范中的 "//text()" 有区别?

zark721 avatar Dec 16 '18 02:12 zark721

我也很好奇,之前使用python时候xpath用的是string() https://blog.csdn.net/Febe_Tien/article/details/81703956 获取全部文本,这里是allText好像不是标准的xpath? @zark721

ChengkaiYang2022 avatar Mar 06 '19 10:03 ChengkaiYang2022

text()只获取了当前标签的文本,allText()还获取了子标签的文本

Plume3362 avatar Dec 16 '20 03:12 Plume3362

感觉作者没必要自己再开发一套xpath解析,已经有很多解析xpath的优秀框架了

yuweiming2016 avatar Jan 16 '21 00:01 yuweiming2016