ToutiaoCrawler
ToutiaoCrawler copied to clipboard
今日头条爬虫,主要爬取关键词搜索结果,包含编辑距离算法、奇异值分解、k-means聚类。
ToutiaoCrawler
接口示例:
2018.6.5更新 https://toutiao.com/search_content/?offset=0&format=json&keyword=手机&autoload=true&count=20&cur_tab=1&from=search_tab
参数说明:
keywordk:搜索的关键字 count:本页文章数量 cur_tab:当前页数
调试方法:
F12选择Network/All,选择preview/data节点
Demo:
ToutiaoCrawler\ToutiaoCrawler\demo.py 这里可以根据需求获取文章标题、标签、内容链接
Demo效果以及调试示例:

--------------------以下为项目代码,部分接口已失效--------------------
- 需要python3.6版本
- 首先安装需要的包,使用pycharm打开会自动安装
- 创建数据库和数据表ToutiaoCrawler/toutiao.sql;配置mysql连接ToutiaoCrawler/ToutiaoCrawler/Utils/Util.py
- 运行Crawler/get_toutiao_news_byapi.py 获取新闻列表【此接口16年开发,部分已失效】
- 运行Crawler/get_toutiao_content_byapi.py 获取新闻内容
- (到这一步数据库已经有内容了)
- 运行Analysis/levenshtein.py 计算编辑距离
- 运行svd/svd.py 奇异值分解
- 运行svd/test_kmeans.py 进行聚类分析和绘图
- 如果需要txt文件,执行Utils/list_to_txt.py