lagou_data_analysis
lagou_data_analysis copied to clipboard
数据分析和可视化毕设
功能点
爬取数据
- 所有公司数据,名称简写,城市,行业,职位数量,人数范围,标签,介绍,融资阶段, 平均工资
- github2016 年度最受欢迎编程语言相应年数薪水,城市,学历要求,公司融资阶段,公 司行业
- 大数据行业五大岗位相应年数薪水,城市,学历要求,公司融资阶段,公司行业,岗位要 求
编程语言分析
- 编程语言在不同城市 (top10) 的需求量
- 编程语言在不同行业 (top10) 的需求量
- 编程语言在不同融资阶段的需求量
- 编程语言相应工作年限薪水平均值
大数据岗位分析
- 五个岗位的职位需求关键词词云
- 五个岗位在不同城市 (top10) 的需求量
- 五个岗位在不同行业 (top10) 的需求量
- 五个岗位在不同融资阶段的需求量
- 五个岗位相应工作年限薪水平均值
数据可视化
- Bokeh
- Echarts
开发工作
- 编写数据采集所用语言:python
- 针对拉勾网反爬虫的应对措施:
- 加 http 头伪装成浏览器;
- 找临界值更换 IP;
- 限制爬取频率;
- 设置代理池。
- 使用多线程爬虫:提高效率
- 制作词云:jieba 中文分词,自定义词典,wordcloud 生成图片
- 分析结果可视化:bokeh , echarts