数据分析与知识发现
    主页 > 综合新闻 >

数据分析中的硬实力与软实力「如何锻造解决问

编辑导读:数据分析师作为互联网行业背景下诞生的岗位,听上去非常高大上,也有不错的职业发展前景。本文作者针对数据分析这个岗位进行了分析,与你分享。

本文来自知乎问答。

问题:想做一名数据分析师,自学了《统计学》、R、SQL等。入门级别的,现在有点迷茫了,下步学什么才是合适的?

我目前自学了《统计学》、JAVA、R、SQL、SPSS。但都是学到学门级别的,现在有点迷茫了,数据分析有那么多工具,不知道学哪些才是最正确的,不知道怎么规划了(问题重点)。我目前考虑的问题主要有两个:

  • 短期希望找到一份相关的工作(目前事业编混日子)。
  • 长期规划是做一名数据科学家不想走偏了。

正文:

同样是因为喜爱而转行踏上数据科学之路。

毕业工作后,业余时间我一直在关注人工智能的新闻,出于兴趣开始在晚上自学相关的理论知识、工具例如统计学、python。突然有一天,我心血来潮,忽然想通了,为何不投身喜爱的行业,要不然也只是空有一腔热血。

于是我便马不停蹄地开始学习Python,并决定从人工智能时代通用基础能力——数据分析入手。

但因为是零基础转行,所以刚入职很多都不会,挨骂最多的就是做的计划不落地、提的方案脱离业务场景……经历了许多项目、积累了经验后,我总结了以下能帮到你的经验。

一、工具篇——硬实力

从题主学习了这么多工具的经历,想必跟我一样是个“工具控”,接触到有趣又强大的工具会忍不住去学习。

现在我作为数据分析师,题主说的工具我都有在用,目前我在用的一些相关工具的应用场景:

1. Python

常用的数据分析工具,数据科学界的明星产品。几乎是万能的工具,尤其是在解决重复性工作、大数据分析等场景方面特别好用。在Python列入小学课程的时代里,它绝对是值回票价的编程语言。

2. SQL

通用的数据库语言,对于数据分析师而言,可以完成取数、分析工作。所谓巧妇难为无米之炊,SQL可以从源头上解决无数据的问题,要不然你是无法想象IT是如何拒绝或延后你的提数需求的。

3. SPSS

“傻瓜式”的数据分析图形软件,可以像操作Excel那样点点点,很简单地完成复杂的数据分析工作,例如相关性分析、回归建模等。

(如图为我在实战中使用SPSS进行特征挖掘的PPT)

目前我工作中,很喜欢用它的可视化决策树。在实际的数据挖掘工作中,可解释性是很重要的一环,它很多时候决定了模型的逻辑及结论是否被业务所认可。众多模型中,线性/逻辑回归在这方面绝对是老大,而在我发现了SPSS中将决策树模型可视化这个逆天功能后,它就成为了我分析的最爱之一,得益于易懂的可视化图形,它的逻辑与结论往往也很能被业务所接受。

4. R

数据科学界的老大之一,统治着专业的统计学、生物、医学等领域。目前我在用它,是因为公司的销售预测模型是其他同事用R语言写的。

R与Python的差异在于:R是统计语言,有很多优秀的框架,例如Python里最常用的Pandas库就是从R移植过去的,再例如可视化图表的库的表现一骑绝尘。但是在自动化办公、应用领域却没有Python广。

所以,建议刚入行的童鞋先学Python这个性价比高的语言,等有进一步明确的需求后,再按需学习R即可。

5. Power BI

非常优秀的可视化分析工具。在用Python做数据分析时,很多时候只能将分析结论可视化后黏贴到PPT里,对业务来说,他们更想要有可互动、动态更新的可视化分析结果。而这,就是我应用PowerBI的场景:数据导入后,建模分析,形成的分析报表业务直接点点点就可以感受到数据变化与特点。

但是PowerBI的建模思维有一定的门槛,而对于大多数分析师来说,Excel的图表已经可以满足。所以建议初学者先学习灵活应用Excel的可视化能力。

6. JAVA

是使用最广的开发语言,与数据分析关系不大。我之所以学它,是因为我负责的数据产品几乎都是用Java开发的数据接口,所以才需要懂一些基础。

想要从事数据分析工作的同学,不建议学习Java

7. 分析工具的优势

以上的提及的工具,建议挑选1-2个,如SQL+Python,进阶学习。最重要的是进行项目实战,可作为短期找工作的敲门砖。