sese-engine issues

启动问题-队列空了

1

@RimoChan 作者你好，在`配置.py`里面将`入口 = 'https://baike.baidu.com/'`改了后，仍然获取不到数据，如下图所示： ![image](https://github.com/RimoChan/sese-engine/assets/5379711/d9916cfd-3520-4913-b27a-522744fb0dc6) 请问这是什么原因？辛苦看看

willard-yuan

最好可以添加链接,搜索结果优先展示

我们在书签栏上收藏了很多东西。但是总会忘记我们以前收藏了什么东西，收藏下来东西都是很好的。所以把这些链接抓取下来,后面搜索到相关的东西的时候优先展示。而且可以防止原始网页关掉了。

leijiabin12581

关于 site: 高级搜索语法的修复

`site:网址` 不能直接这么搜索必须是 `site:网址内容` 才能搜索希望优化一下允许直接搜某个url下的内容

fengguowudi

sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思

16

我想问一下sese-engine是否完全遵守了robots协议我在https://sese.yyj.moe 上搜索`bilibili`时得到如下结果 ![image](https://user-images.githubusercontent.com/73788063/210332980-bc096b07-5396-44a7-8e64-2cc2529a7129.png) 但是根据https://www.bilibili.com/robots.txt 来看，sese-engine里默认配置的`loli_spider` 显然不属于允许的UA 那么如果sese-engine完全遵守了robots协议，则不会爬到https://www.bilibili.com 所以是https://sese.yyj.moe 修改了`爬虫的名字`还是sese-engine不是完全遵守robots协议另外大部中国分网站的`robots.txt`喜在文件末尾写上 ``` User-agent: * Disallow: / ``` 所以如果我希望能和正常的搜索引擎一样爬取是否需要修改爬虫的名字

mengguyi

考虑使用urllib.robotparser代替reppy

2

reppy由于长期缺乏维护，在大多现有主流linux发行版上难以安装。且在未来可能会出现相当多的漏洞所以请考虑使用urllib.robotparser代替reppy

mengguyi

为什么服务器用不了了

11

前几次访问给我的结果500 报错: Rimo And XiaoYun 服务器不……不行了…… proxy: HTTPConnectionPool(host='110.40.75.129', port=14950): Max retries exceeded with url: /search?slice=0%3A10&qh=e889b2e889b2 (Caused by ConnectTimeoutError(, 'Connection to 110.40.75.129 timed out. (connect timeout=15)'))

midikafeijuren