Crawler
Crawler copied to clipboard
针对某亿些小说网站的爬虫
Crawler
快速目录
- sangtacviet
- nhimmeocf-刺猬猫分享
- 轻之国度
- (正版漫画)heros-web.com
- 同人小说通用
- imwcr
- 已失效内容
sangtacviet
相关文件
sangtacviet.user.js
sangtacviet.py
使用说明
请使用Tampermonkey安装此用户脚本
安装后,在ciweimao/sfacg/qidian/等等(未列出的来源未提供优化)书籍页面会出现一个黑色的下载框,点击就会自动操作,如果点击后没有反应,可以打开控制台康康有没有报错
已支持云端服务,将每一次用户的结果上传至云端,可以节约所有人的时间,希望各位保留这个功能.同时,所有文件均公开,可以通过上图所示按钮访问
-
在sangtacviet.com书籍详情页面,点击下载相关按钮
-
在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的
-
执行
python sangtacviet.py ****.json打包epub,过程中会下载一些网络图片,请静候 -
在
.tmp目录下找到成品
中文显示
恢复被官方隐藏的中文,但是请悄咪咪的用,切忌宣传,如果你不想大家都没得用的话
在搜索界面支持ciweimao/sfacg/linovel/wenku8的中文显示 传送门
TIPS:当然,你也可以使用控制台使用:STV.search_helper_handler()
以wenku8为例
nhimmeo.cf 刺猬猫分享
相关文件
nhimmeo.user.js
nhimmeo.py
题外话
|∀` )被站长发现咯
使用说明
请使用Tampermonkey安装此用户脚本
安装后,在书籍页面会出现一个黑色的下载框,点击就会自动操作,如果点击后没有反应,可以打开控制台康康有没有报错顺,带可以来仓库发一个issue,记得带上URL地址,以及相关信息
已支持云端服务,将每一次用户的结果上传至云端,可以节约所有人的时间,希望各位保留这个功能.同时,所有文件均公开,可以通过上图所示按钮访问
-
在zh.nhimmeo.cf书籍详情页面,点击下载相关黑色系按钮,~~推荐使用稳定,高速有存储上限,可能无法正常运作~~(高速服务已不主动使用)
-
在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的
-
执行
python nhimmeo.py ****.json打包epub,过程中会下载一些网络图片,请静候 -
在
.tmp目录下找到成品
轻之国度
相关文件
lightnovel.us.user.js
lightnovel.us.py
题外话
请合理使用,禁止在任何平台传播本脚本
使用说明
请使用Tampermonkey安装此用户脚本
-
在https://www.lightnovel.us/cn/series/312之类的合集详情页面,点击下载相关按钮,仅仅提供稳定相关服务
-
在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的
-
执行
python lightnovel.us.py ****.json打包epub,过程中会下载一些网络图片,请静候 -
在
.tmp目录下找到成品
heros-web.com
相关文件
heros-web.com.user.js
使用说明
请使用Tampermonkey安装此用户脚本
和以往不一样,功能入口在Tampermonkey中,如上图所示
温馨提示:请提前给与网页下载多项文件的权限
同人小说(通用)
大部分同人网站那源码都一样的东西,做了个模板,可以直接爬
相关文件
Template.py
使用说明
(main) $ python Template.py -h
usage: Book Downloader [-h] [-d DOMAIN] [-p PROTOCAL] [-i IP] [-s START] [-e END] [-m MODE] [-c CODE] [-x X]
用于下载一些模板一致的网站
options:
-h, --help show this help message and exit
-d DOMAIN, --domain DOMAIN
网站域名
-p PROTOCAL, --protocal PROTOCAL
网站支持协议
-i IP, --ip IP 网站IP地址
-s START, --start START
起始点
-e END, --end END 终止点
-m MODE, --mode MODE 模式
-c CODE, --code CODE 网页编码
-x X, --x X 高级设定
Phantom-sea © limited |∀` )
此处重点说明几个参数:
- MODE:模式,有两个可选项:"default"和"local"default默认模式,爬取即时数据,生成URL文件和Data内的一个数据文件local本地模式,读取Data中的数据文件生成一个URL文件
- X:高级设定,其实就是下载txt页面的路径,有单独几个网站这个路径是他们更改过的比如:https://www.bixiange.top/它的下载页面比如 https://www.bixiange.top/download/15-18931-0.html相对应的高级设定是
/download/15同时,也可以更改此设定达到下载不同分类的目的比如,这里的15是同人分类,其他的分类ID可以自行寻找
运行完成之后会生成一个txt/url.txt的文件
通过aria2c -c --input-file=url.txt执行下载,或者使用IDM等软件进行下载
可以使用的示例网站
-
https://jpxs123.com/ IP记录:209.74.105.58
-
https://tongrenquan.org/ IP记录:199.33.126.50-54
-
https://www.bixiange.top IP记录:无(安全意识强,尚未发现)不过内容和https://m.bixiange.me/完全一致
-
https://m.bixiange.me/ IP记录:209.74.107.162/209.74.107.163/209.74.107.165
imwcr
相关文件
imwcr.py
针对https://down.imwcr.com/1/main编写的爬虫
IP记录:43.154.113.63
失效记录 2023.3.21
根据这个IP记录,发现了新的域名,但是502,先记录 down.suucc.com
恢复正常 2023.6.1
实际上只是拥有者更换域名而已,功能还未测试,应该差不多改改就行
已失效内容
已失效内容
trxs(原版)[已失效]
相关文件
trxs.py
前不久看见个同人小说的网站,写了个爬虫爬着玩 这里是小说网站地址
~~编译完成之后的程序在这下载~~
zxcs[已失效]
相关文件
zxcs.py
针对http://zxcs.me/编写的爬虫
IP记录:92.242.62.123
失效记录 2023.6.7
具体情况可以通过如下链接查看
https://webcache.googleusercontent.com/search?q=cache:https://zxcs.wiki/
https://web.archive.org/web/20230602155316/https://zxcs.wiki/