数据工作者的自我修养 | 哪些技能是必不可少的?

4周前 (11-13 02:48)阅读1回复0
路亚哦哦哦
路亚哦哦哦
  • 管理员
  • 注册排名7
  • 经验值90825
  • 级别管理员
  • 主题18165
  • 回复0
楼主

数据工做者的自我涵养 | 哪些技能是必不成少的?

CDA数据阐发师 出品

做者: Jeff Hale

编译: Mika

市场上对数据工做者的要求出格多:需要掌握机器进修、计算机科学、统计学、数学、数据可视化,深度进修等常识。要想全数掌握那些方面的常识,最少需要进修数十种语言、框架和手艺,那显然是有难度的。

那么,为此数据工做者应该若何合理地分配时间,该掌握哪些技能呢?

在本文中,我们对求职网站停止搜刮,找出针对数据科学家等数据相关工做的技能要求。我别离阐发了凡是的数据相关技能和特定语言以及东西。

我们详细搜刮了LinkedIn、Indeed、SimplyHired、Monster、以及AngelList那些求职网站。

以下图表显示了在每个网站中发布了几相关工做。

数据工做者的自我涵养 | 哪些技能是必不成少的?

我阐发了许多工做列表和查询拜访,想列出傍边最常见的技能要求。“办理”那类词没有包罗在内,因为许多求职发布中城市包罗那个词。

全数搜刮都是针对美国地域,关键词中带有“数据科学家”的职位发布,并利用切确婚配搜刮削减告终果数量。但是,那种办法确保成果与数据科学家职位相关,而且影响所有搜刮项。

AngelList中供给的是雇用数据科学家的公司数量,而不是职位数量。我将AngelList排除在那两种阐发之外,因为它的搜刮算法是OR的逻辑搜刮,并且无法将其修改为AND。若是你搜刮"数据科学家""TensorFlow"那类关键词,AngelList表示还不错,但若是你搜刮"数据科学家""react.js"也会返回不雇用数据科学家的公司。

Glassdoor也被我排除在外。网站上暗示美国目前发布了26,263个"数据科学家"的职位,然而现实只显示了不到900个的职位。此外,Glassdoor发布的数据科学家职位也不成能比起其他支流平台的三倍要多。

最末阐发接纳了在LinkedIn上400多个职位信息阐发通用技能,针对200多个职位信息阐发特定技能。傍边有一些反复,成果记录在Google Sheet中。

我下载了.csv文件并将其导入JupyterLab。然后,我计算出每个百分比,并对雇用网站上的数量停止均匀。

此外,我将成果与Glassdoor 在上半年发布的数据科学家职位研究停止比力,而且连系KDNuggets的查询拜访信息。从中能够发现,关于数据科学家而言,有些技能变得越来越重要,而其他技能则逐步不再重要。之后我们将详细看到。

Glassdoor

/

KDNuggets

能够在我的Kaggle Kernel 中看到交互式图表和阐发。我利用Plotly停止可视化,在写本文时,利用Plotly和JupyterLab有一些难点,详细申明在 Kaggle Kernel 最初的Plotly文档中

Kaggle

/

Plotly 文档

1. 通用技能

以下是雇主最希望数据科学家具备的通用技能。

数据工做者的自我涵养 | 哪些技能是必不成少的?

成果表白,通用技能中数据阐发和机器进修是数据科学家工做的核心。从数据中搜集阐发见解是数据科学的次要功用。机器进修是关于开发创建预测性能的系统,那也是非常受欢送的技能。

数据科学家需要统计学和计算机科学技能,那其实不惊讶。统计学、计算机科学和数学也是大学专业,那也可能进步了那些技能呈现的频次。

有趣的是,近一半的职位要求中都提到了沟通才能。数据科学家需要可以传达本身的见解,并与别人合做。

人工智能和深度进修其实不像其他术语那样经常呈现。它们是机器进修的子集,深度进修被用于越来越多的机器进修使命中,之前次要是利用其他算法。现在,大大都用于天然语言处置问题的更佳机器进修算法是深度进修算法。我估计未来在职位信息中,深度进修技能将被越来越明白,并且机器进修将与深度进修越来越类似。

那么雇主希望数据科学家利用哪些特定软件东西?接下来,让我们看到那个问题。

2. 手艺技能

以下是雇主最希望数据科学家掌握的前20种特定语言,库和科技东西。

数据工做者的自我涵养 | 哪些技能是必不成少的?

让我们简要介绍一下最常见的手艺技能。

数据工做者的自我涵养 | 哪些技能是必不成少的?

Python是更受欢迎的语言。那种开源语言已经十分普及。对初学者而言,那种语言很好上手,有许多撑持的资本。绝大大都数据科学东西都与之兼容。Python是数据科学家次要的利用语言。

数据工做者的自我涵养 | 哪些技能是必不成少的?

R语言与Python相差不远。它曾经是数据科学的次要语言,R语言的需求仍然很大。那种开源语言的根源在于统计数据,它十分受统计学家的欢送。

Python或R语言是处置数据科学工做的必备前提。

SQL的需求也很高。SQL指的是Structured Query Language(构造化查询语言),是与数据库交互的次要体例。在数据科学范畴,SQL有时会被轻忽,但若是想找数据科学方面的工做,那项技能是很重要的。

数据工做者的自我涵养 | 哪些技能是必不成少的?

接下来是Hadoop和Spark,它们都是Apache的大数据开源东西。

Apache Hadoop是一个开源软件平台,用于散布式存储和散布式处置大型数据集,那些数据集是由商用硬件构建的计算机集群。

Apache Spark是快速的内存数据处置引擎,具有强大且富有表示力的开发API,可以让数据工做者有效地施行流、机器进修或SQL,那些情况需要对数据集停止快速迭代拜候。

与Python,R和SQL比拟,很少有求职者具备那些技能。若是你会Hadoop和Spark的经历,那么你更有可能在求职中胜利。

数据工做者的自我涵养 | 哪些技能是必不成少的?

数据工做者的自我涵养 | 哪些技能是必不成少的?

接下来是Java和SAS。我惊讶地发如今职位描述中,那两种语言呈现的频次也很高。凡是,Java和SAS在数据科学界的存眷度都不高。

接下来是Tableau。那个阐发平台和可视化东西功用强大,易于利用且越来越受欢送。它有一个免费的公共版本,但若是你想连结数据私密就需要花钱。若是你不熟悉Tableau,那么强烈保举Udemy的 Tableau 10 A-Z 。

下图技能列表显示的语言、框架和其他数据科学软件东西更多。

数据工做者的自我涵养 | 哪些技能是必不成少的?

按照我们的阐发和GlassDoor的查询拜访,Python、R和SQL都是是更受欢迎的技能。按照局KDnuggets开发人员查询拜访等阐发显示,R语言、Hadoop、Java和SAS在近年来利用量呈下降趋向,Tableau呈明显的上升趋向。

3. 建议

按照那些阐发的成果,以下是对数据科学家的一些建议。

证明本身的数据阐发才能,并专注纯熟掌握机器进修。

进步你的沟通技巧。保举阅读《Made to Stick》那本书,帮忙你提拔本身概念的影响力。还能够尝尝Hemmingway Editor那款app,进步写做的逻辑性。

掌握深度进修框架。精通深度进修框架在机器进修方面越来越重要。

若是你在踌躇选择Python仍是R语言之间做出选择,请选择Python。若是你数量掌握Python,那么能够也考虑进修R语言,那会让你在行业中更占优势。

当雇主在寻找具有Python技能的数据科学家时,他们也期望求职者掌握常见的Python数据科学库:numpy、pandas、scikit-learn和matplotlib。若是你在进修那些东西,建议你利用以下资本:

DataCamp,DataQuest 两者都是价格合理的在线SaaS数据科学教育产物,你能够在编程时进修,傍边都传授了许多手艺东西。

Data School 拥有各类资本,还包罗一系列很赞的YouTube视频,解释各类数据科学概念。

McKinney,《Python for Data Analysis 》 本书重视pandas,还讨论了根底的numpy和scikit-learn等常识。

Müller,Guido《Introduction to Machine Leaning with Python》 Müller是scikit-learn的次要维护者。那是一本关于用scikit-learn进修机器进修的好书。

若是你想进修深度进修,我建议先进修Keras或FastAI,然后在进修TensorFlow或PyTorch。Chollet的《Deep Learning with Python》那本书是进修Keras的绝佳资本。

除此之外,我建议你领会你感兴趣的内容,虽然那里需要考虑到时间分配等因素。

若是你想通过雇用网站找数据科学家工做,我建议尝尝LinkedIn,那上面可找到的工做信息是最多的。

同时,我建议你造做一个在线做品集,可以很好地展现你的数据科学技能。还建议在你的LinkedIn小我材料中说明本身的技能。

若是你想查看本文中交互式图表及傍边利用的代码,请查看我的Kaggle Kernel。

/

原文链接:

点那里👇存眷我,记得标星哦~

0
回帖

数据工作者的自我修养 | 哪些技能是必不可少的? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息