lagou_data_analysis icon indicating copy to clipboard operation
lagou_data_analysis copied to clipboard

数据分析和可视化毕设

功能点

爬取数据

  • 所有公司数据,名称简写,城市,行业,职位数量,人数范围,标签,介绍,融资阶段, 平均工资
  • github2016 年度最受欢迎编程语言相应年数薪水,城市,学历要求,公司融资阶段,公 司行业
  • 大数据行业五大岗位相应年数薪水,城市,学历要求,公司融资阶段,公司行业,岗位要 求

编程语言分析

  • 编程语言在不同城市 (top10) 的需求量
  • 编程语言在不同行业 (top10) 的需求量
  • 编程语言在不同融资阶段的需求量
  • 编程语言相应工作年限薪水平均值

大数据岗位分析

  • 五个岗位的职位需求关键词词云
  • 五个岗位在不同城市 (top10) 的需求量
  • 五个岗位在不同行业 (top10) 的需求量
  • 五个岗位在不同融资阶段的需求量
  • 五个岗位相应工作年限薪水平均值

数据可视化

  • Bokeh
  • Echarts

开发工作

  • 编写数据采集所用语言:python
  • 针对拉勾网反爬虫的应对措施:
    • 加 http 头伪装成浏览器;
    • 找临界值更换 IP;
    • 限制爬取频率;
    • 设置代理池。
  • 使用多线程爬虫:提高效率
  • 制作词云:jieba 中文分词,自定义词典,wordcloud 生成图片
  • 分析结果可视化:bokeh , echarts

分析结果见博客

拉勾数据岗位和热门编程语言现状分析