Fork me on GitHub

employ_info

爬虫分析 Java 岗位招聘情况

现在的 Java 开发的岗位招聘,公司们需要什么样的人才?要有什么样的技能?以及对应的市场如何?

所以,我有了一个“大”胆的想法。

利用Jsoupgson库编写Java代码,爬取了智联招聘上 Java开发 关键字的招聘岗位近 90×625 = 56250 条招聘信息,选取 top5786 条招聘岗位带 Java 关键字的招聘信息进行数据分析。
主要对抓取到的以下16个方面信息进行分析:

信息发布 企业信息 招聘信息
招聘发布时间 企业名称 工作地点
招聘结束时间 企业类型 工作类型
最新更新时间 公司规模 工作职位
搜索标签 企业信息介绍 薪资
职业类型 公司福利 学历要求
工作经验要求
详细信息页面、企业名称、企业类型、公司规模、企业信息介绍、工作地点、工作类型、工作职位、搜索标签、薪资、学历要求、工作经验要求、职业类型、公司福利

岗位分布

全部数据标记在符号地图上的效果如下,圆饼大小表示数量:

地区

筛选出发布招聘岗位最多的地区,如下:

筛选出数量集中的

整理出来的表格如下:

地区 招聘数
北京 995
上海 486
深圳 340
南京 290
广州 241
成都 224
杭州 202
武汉 194
郑州 191
大连 184
济南 183
西安 169
长沙 164

学历

5K多条招聘信息中出现超过150次的地区:显然北京995 是最多的,接近1K,上海 486 排在第二,深圳340排在第三,两者都超过了 300,北上广深,江浙沪都十分多。因为我是南方人(去过的最北方就是长沙),对北方不是很熟悉,大连,济南,西安都超过了150。当然数据只是针对这前 5786 条数据而言!见微知著总体上也差不多。

职位要求

提取了所有的职位要求,进行分词统计,清理没意义的词,统一英文字符,如 Java 和 java 不区分大小。

提取前 50 个中文词汇以及出现次数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
开发,2100
熟悉,1842
经验,1268
工程师,897
工作,895
职位,842
能力,806
优先,755
描述,753
软件,682
技术,677
负责,660
职能,658
类别,654
设计,562
系统,559
要求,549
相关,542
使用,529
良好,521
以上,502
框架,492
数据库,491
项目,429
团队,424
了解,398
数据,387
产品,352
熟练,349
精通,331
公司,321
任职,313
进行,311
编程,309
平台,306
学习,301
语言,300
具备,300
岗位职责,296
沟通,292
代码,284
互联网,280
具有,269
参与,263
分析,262
维护,253
优化,239
编写,235
爬虫,233
学历,230
文档,226
合作,219
软件开发,218
高级,213
常用,212
测试,205
需求,205
完成,200

这个词频排序挺有趣的,要来好好研究一下

(开发,2100)(熟悉,1842)(经验,1268),这是最多的三个。熟悉其实也就是相当于有经验了。表示程度上的词也是频频出现(熟悉,1842)(良好,521)(熟练,349)(精通,331)。其实我一直不太理解精通这个词,什么程度上的熟练才能称为精通。个人感觉应该对精通这个词怀有敬畏之心。
(团队,424)(参与,263)(合作,219)(沟通,292)(协作,108),这个更多的是强调团队开发,参与到团队开发以及合作的重要性,毕竟现在的项目的规模基本上已经大到不是一个人就能完成的。顺便提一下 Git 出现了刚好 100 次。
(分析,262)(维护,253)(优化,239),这三个词应该就是对个人能力的综合描述了,具有分析问题的能力,维护和优化项目的能力,一个成熟的项目后期的维护和优化是很重要的。

看看没排进 top50 的其他词汇
(专业,199)(架构,173)(研发,170),这几个词看起来就厉害了,毕竟架构这个不是随便就能搞搞。
(爬虫,233)(抓取,140)(爬取,28)(正则表达式,31),刚需刚需!!!
(独立,153)(责任心,123)(强烈,69)(踏实,26)(抗压,17)(认真,26)(热爱,53)(意识,78)(逻辑,58)这应该都是所要求的品质和能力了吧。
(数据结构,106)(算法,198)(设计模式,33)回忆起了被《数据结构》和《算法导论》统治的恐惧吗?
(分布式,97)(分布式系统,29)(分布式计算,7)用心感受一下就行了。
(开源,112),(Github,29)这个也可以看出公司对开源的这方面的重视了,这是一种学习能力的体现,也是对程序和代码的热爱。了解这个也能大概证明自己不是一个只会闭门造车的人。

薪酬情况

折线图1

折线图2

学历情况

学历要求

可以看出这些公司招聘主要是面向本科与大专学历的求职人员。

职位情况

然后对职位进行分析,这个问题让我头可疼可疼了呢,因为没有一个规范,导致招聘信息上的职位写的是各式各样,举个例子吧。Java 高级开发工程师和高级 Java 开发工程师是一个意思吧。Java 开发工程师,Java开发工程师,JAVA 工程师这三是一个概念吧。有的甚至写着 JAVA 攻城师???以为自己萌萌哒??? 这样统计起来也比较麻烦,找不到好办法,只能先进行词频统计,然后剩下的再进行手动归类。最终被我归为 20 个类别。

词云2

企业提供的职位大多为JAVA开发工程师

词云3

工作经验与职位的词云。

词云1

词云4

总结

详细请跳转网页全国Java开发招聘信息.

-------------本文结束goodwell感谢您的阅读-------------
小二,上酒~
undefined