sese-engine
sese-engine copied to clipboard
【sese-engine】新时代的搜索引擎!
@RimoChan 作者你好,在`配置.py`里面将`入口 = 'https://baike.baidu.com/'`改了后,仍然获取不到数据,如下图所示:  请问这是什么原因?辛苦看看
我们在书签栏上收藏了很多东西。但是总会忘记我们以前收藏了什么东西,收藏下来东西都是很好的。 所以把这些链接抓取下来,后面搜索到相关的东西的时候优先展示。而且可以防止原始网页关掉了。
`site:网址` 不能直接这么搜索 必须是 `site:网址 内容` 才能搜索 希望优化一下允许直接搜某个url下的内容
我想问一下sese-engine是否完全遵守了robots协议 我在https://sese.yyj.moe 上搜索`bilibili`时得到如下结果  但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的`loli_spider` 显然不属于允许的UA 那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com 所以是https://sese.yyj.moe 修改了`爬虫的名字`还是sese-engine不是完全遵守robots协议 另外 大部中国分网站的`robots.txt`喜在文件末尾写上 ``` User-agent: * Disallow: / ``` 所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字
reppy由于长期缺乏维护,在大多现有主流linux发行版上难以安装。且在未来可能会出现相当多的漏洞 所以请考虑使用urllib.robotparser代替reppy
为什么服务器用不了了
前几次访问给我的结果500 报错: Rimo And XiaoYun 服务器不……不行了…… proxy: HTTPConnectionPool(host='110.40.75.129', port=14950): Max retries exceeded with url: /search?slice=0%3A10&qh=e889b2e889b2 (Caused by ConnectTimeoutError(, 'Connection to 110.40.75.129 timed out. (connect timeout=15)'))
我处理了三天还没跑起来。docker只负责查询数据库而不负责爬数据,python运行一天一夜还没运行完数据库。访问本地搜索失败。不管怎么改都是有各种各样的问题。根本跑不动。已经放弃了。实在不是人能运行的
提升建议
搜索结果的质量再提高一点,最好跟bing差不多,比如搜索我的世界第一页显示官网链接,然后结果数量和页数再提升,至少50页
我想做个blog搜索引擎,可以设置只收录个人博客网站么?应该如何设置?