webmagic
webmagic copied to clipboard
关于webmagic中xpath = "//doc//text()"中text()的问题
xpath = "//doc//text()" 表达的应该是 所有doc节点下面的所有text文本。但是并没有取到所有的文本。 后来我切换成xpath = "//doc/allText()" 就可以获得所有文本了,这两者//text() 和 /allText()有什么区别的吗?
或者说webmagic里面 "//text()" 的xpath规范中的 "//text()" 有区别?
我也很好奇,之前使用python时候xpath用的是string() https://blog.csdn.net/Febe_Tien/article/details/81703956 获取全部文本,这里是allText好像不是标准的xpath? @zark721
text()只获取了当前标签的文本,allText()还获取了子标签的文本
感觉作者没必要自己再开发一套xpath解析,已经有很多解析xpath的优秀框架了