phpfetcher
phpfetcher copied to clipboard
A PHP web crawler framework
详见changelog demo基本跑通,个别notice可以留意一下
如题,框架里面是否考虑正则匹配来获取内容
抓取页面有些数据是通过初始化js来追加的html,我发现我使用的程序只能加载html源码的数据,phpfetcher是否实现了抓取js初始化之后的页面?如果有,麻烦告知,不胜感激~
使用mb_detect_encoding 可检测出实际编码,然后再进行转换。 http://tech.qq.com/ 【腾讯科技频道】 标记的是utf8 实际则是EUC-CN编码
如插入到wordpress中去,实现发布
在 link_rules 中, 写了一个 "排除特定字符" 的正则, 似乎没有生效. 请问是否有别的解决方法吗?
可以考虑整合和 phantomjs
Error logs as follows: 2016-04-07 18:44:54 Default.php Phpfetcher_Page_Default sel 116 Warning: $this->_dom is NULL! 2016-04-07 18:44:54 crawl_baidu_page.php Phpfetcher_Page_Default sel 72 Warning: $this->_dom is NULL! Fatal error: Call to a member...