新闻  |   论坛  |   博客  |   在线研讨会
Kaggle 年度报告出炉:数据科学家年轻多金,薪资近百万
数据派THU | 2020-12-21 11:42:20    阅读:480   发布文章

以下文章来源于HyperAI超神经 ,作者神经小兮

数据分析竞赛平台 kaggle,近期针对平台用户进行了一项调查,涉及从业者基本信息、薪资水平、工作经验等多个维度。

对 20,036 名 Kaggle 用户的反馈进行数据清洗后,kaggle 最终针对 13%(2675 名)的受访者编制了这份报告。这些受访者都是在职的数据科学家,或其他支持数据科学和机器学习的职位。

13.jpg

kaggle 历时一个月,完成了此项调查报告

目前,最近调查报告已出炉。从这个报告中,我们可一览当前机器学习与数据科学从业者的全貌,以及相关企业在这方面的人员雇佣、资金投入状况等,一窥该行业最新发展趋势。

注:在本次调查中,并未出现中国的数据科学家相关数据,超神经经过研究发现,kaggle 在调查问卷的参与规则中,有一条写道:

若想获得该问卷调查所设奖项,您必须满足:

18 岁以上或所在国规定的公民年龄;

本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民;

不是受美国出口管制或制裁的个人或实体的代表。

12.jpg

明确指出以上国家、实体代表及个人没有评奖资格

自 2018 年至今,美国已将 200 多家中国企业以及 13 所高校,列入出口管制或制裁的「实体清单」,我们将这些高校名单,以及部分科技、人工智能领域企业名单整理如下:

企业:北京计算科学研究中心  北京云计算中心  中芯国际  大华科技  海康威视  科大讯飞  旷视科技 商汤科技  依图科技  云从科技  云天励飞技术有限公司  东方网力科技有限公司  北京达闼科技(CloudMinds)  奇虎 360 科技有限公司  厦门美亚柏科信息有限公司   颐信科技  华为 38 家子公司  中国电子科技集团公司第三十研究所  中国电子科技集团公司第七研究所   无锡江南计算技术研究所

高校:北京航空航天大学  中国人民大学  国防科技大学 湖南大学  哈尔滨工业大学  哈尔滨工程大学  西北工业大学  西安交通大学  电子科技大学  四川大学  同济大学  广东工业大学  南昌大学

也就是说,只要你所在的学校、公司上了实体清单,问卷可以填,但是不能参与奖项的评审。虽然没有进一步的背景调查和声明,但 Kaggle 的确指名道姓地婉拒了不少国人参与。

报告精炼版:数据科学er的群体画像

 性别、年龄与学历分布 

·  该领域从业人员男多女少,男女比例约为 5:1

·  35 岁是个分水岭,大部分受访者小于 35 岁

·  一半以上的受访者拥有研究生学位

 教育背景和工作经验 

·  大多数数据科学家走出校门后,仍坚持学习新技术

·  大多数数据科学家编程时间少于 10 年

·  一半以上的数据科学家,拥有机器学习的经验不足三年

·  居住美国的数据科学家的工作薪水,明显比其他国家同行更多

 技术相关调查 

·  相比 2019 年,使用云计算的数据科学家更多了

·  Scikit-Learn 是使用最多的机器学习工具,有 4/5 的数据科学家在用

·  Tableau 和 PowerBI 是最流行的商业智能工具

 男性为主,人均硕士,印度霸榜

性别:超八成为男性 

数据科学家从业者仍然存在巨大的性别比例失衡,超过八成都是男性。

11.jpg

去年调查显示,84% 为男性,今年这一比例变化极小

年龄:95 后大军已加入 

数据科学家的年龄一般在 20 岁左右或 30 岁出头,约 60% 在 22 岁至 34 岁之间。只有五分之一的专业数据科学家年龄在 40 岁以上。

10.jpg

数据科学家年龄集中在 25 - 34 岁之间

有迹象表明,随着「Z 世代」(指大约 1995-2005 年之间出生的一代)更多地参与其中,数据科学家年龄越来越小,目前已有近 7% 的数据科学家年龄在 18-21 岁之间。

与去年的 5% 相比有所增长,因此,可以预见的是,未来这一群体将会越来越年轻。

所在国家:印度和美国霸榜前两位 

在参与此次 Kaggle 年度调查的数据科学家中,印度的数据科学家占 22%,而美国的占 14.5%,两者远远超过第三位的巴西(低于 5%)。

报告因为各项因素,并未将中国明确列入,但排名第三的 Other 的数量不低,也许是为纳入有效统计结果的中国用户。

9.jpg

印度和美国从事数据科学家的人数优势明显

受教育程度:研究生学位是标准 

调查显示,与往年一样,研究生学位仍然是数据科学家的标准,超过 68% 的数据科学家拥有硕士或博士学位。只有不到 5% 的数据科学家没有高中以上学历。

8.jpg

超过半数的数据科学家都拥有硕士学位

学习平台:Coursera 和 Udemy 最常用 

数据科学和机器学习正在迅速改变,所以受访者中,超九成仍会继续保持学习。其中,大约 30% 的人选择了传统的高等教育课程,更多的人则通过在线资源学习。

在本次调查中,Coursera、Udemy 和 Kaggle Learn 是最常见的学习平台。

7.jpg

很多人不止在一个平台上学习,调查显示他们人均会选择 2.8 个平台

编程经验:绝大多数有多年编程经验 

受访者中,大多数数据科学家都至少有几年的编程经验。甚至,超过 8% 的数据科学家从上个世纪,也就是至少 20 年前,就开始编程了。只有不到 2% 的数据科学家声称从来没有写过代码。

从全球来看,美国数据科学家的编程经验要丰富得多。在美国,37%  的人从事编程工作 10 年以上,而全球的话,这个比例只有 22%。

6.jpg

编程经验对于数据科学家来说较为重要

机器学习经验:大多数为机器学习新手 

受访者中,大多数的数据科学家在机器学习方面都是新手。只有不到 6% 的专业数据科学家已经使用机器学习 10 年或更久。

5.jpg

大约超过半数的数据科学家,机器学习方面经验少于三年

薪资水平:美国最具竞争力 

数据科学家收入相当有竞争力,而美国数据科学家薪资最高,平均达 12 万 - 15 万美元(约合人民币 78 万 - 98 万元)。

而印度虽然数据科学家数量多,但是收入却并不高,近 90% 的印度数据科学家每年的收入不到 5 万美元,仅仅排在全球数据科学家薪资排行榜第六位。

4.jpg

全球各国数据科学家薪资中位数

他们都用什么集成开发环境?

报告显示,JupyterLab IDE 仍然是数据科学家的首选工具,大约有四分之三的数据科学家使用它。不过,这一数字比去年的 83% 有所下降。Visual Studio 代码排名第二,仅略高于 33%。

3.jpg

他们都用什么机器学习框架?

基于 Python 的机器学习库仍居主导地位。其中,Scikit-learn 是一款适用于大多数项目的超级武器,排名第一,有五分之四的数据科学家在使用它。

调查中,TensorFlow 和 Keras,则分别有 50% 的数据科学家在使用。

2.jpg

其中,国内陈天奇博士打造的 Xgboost 排名第四

数据科学家成热门职位,你也要加入吗?

从 2016 年起,kaggle 每年都会进行这样一次调查,让我们能够更清晰地看到机器学习与数据科学从业者的立体画像,以及这一领域的发展趋势。

在大数据时代,企业对数据科学家这一岗位的需求爆发式增长。同时,广阔的发展前景和丰厚的薪酬,也使得数据科学家成为很多人的梦想职业。

1.jpg

根据 Google Trends 显示,在过去近十年,人们对数据科学家这一职位兴趣猛增

不过,从 kaggle 的调查报告中,我们看到,数据科学家这一职业已经越来越年轻化,他们受教育程度也越来越高。因此,要想加入这一赛道,所面临的竞争也是不小的。

kaggle 报告:

https://storage.googleapis.com/kaggle-media/surveys/Kaggle%20State%20of%20Machine%20Learning%20and%20Data%20Science%202020.pdf

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客