如何成为一个数据分析师?

网上科普有关“如何成为一个数据分析师?”话题很是火热,小编也是针对如何成为一个数据分析师?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您...

网上科普有关“如何成为一个数据分析师?”话题很是火热,小编也是针对如何成为一个数据分析师?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。

1、明确知识框架和学习路径

数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:

SQL数据库的基本操作,会基本的数据管理;

会用Excel/SQL做基本的数据提取、分析和展示;

会用脚本语言进行数据分析,Python or R;

有获取外部数据的能力加分,如爬虫或熟悉公开数据集;

会基本的数据可视化技能,能撰写数据报告;

熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;

高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。

按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:

1.需要获取外部数据分析师:

python基础知识

python爬虫

SQL语言

python科学计算包:pandas、numpy、scipy、scikit-learn

统计学基础

回归分析方法

数据挖掘基本算法:分类、聚类

模型优化:特征提取

数据可视化:seaborn、matplotlib

2.不需要获取外部数据分析师:

SQL语言

python基础知识

python科学计算包:pandas、numpy、scipy、scikit-learn

统计学基础

回归分析方法

数据挖掘基本算法:分类、聚类

模型优化:特征提取

数据可视化:seaborn、matplotlib

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

数据获取:公开数据、Python爬虫

如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。

外部数据的获取方式主要有以下两种。

第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。

另一种获取外部数据费的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的**列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)

网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。

掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。

除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。

数据存取:SQL语言

你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。

SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:

提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。

数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

数据预处理:Python(pandas)

很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

选择:数据访问(标签、特定值、布尔索引等)

缺失值处理:对缺失数据行进行删除或填充

重复值处理:重复值的判断与删除

空格和异常值处理:清楚不必要的空格和极端、异常数据

相关操作:描述性统计、Apply、直方图等

合并:符合各种逻辑关系的合并操作

分组:数据划分、分别执行函数、数据重组

Reshaping:快速生成数据透视表

概率论及统计学知识

数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:

基本统计量:均值、中位数、众数、百分位数、极值等

其他描述性统计量:偏度、方差、标准差、显著性等

其他统计知识:总体和样本、参数和统计量、ErrorBar

概率分布与假设检验:各种分布、假设检验流程

其他概率论知识:条件概率、贝叶斯等

有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……

你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。

python数据分析

如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。

比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:

回归分析:线性回归、逻辑回归

基本的分类算法:决策树、随机森林……

基本的聚类算法:k-means……

特征工程基础:如何用特征选择优化模型

调参方法:如何调节参数优化模型

Python 数据分析包:scipy、numpy、scikit-learn等

在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。

当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。

系统实战

这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。

如何进行实战呢?

上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。

另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。

开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。

你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。

在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:

员工离职预测训练赛

美国King County房价预测训练赛

北京PM2.5浓度分析训练赛

种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!

Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。

Python的创始人为荷兰人吉多·范罗苏姆(GuidovanRossum)。1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,作为ABC语言的一种继承。

之所以选中Python(大蟒蛇的意思)作为该编程语言的名字,是取自英国20世纪70年代首播的电视喜剧《蒙提.派森的飞行马戏团》(MontyPython'sFlyingCircus)。

扩展资料:

python中文就是蟒蛇的意思。在计算机中,它是一种编程语言。Python(英语发音:/?pa?θ?n/),是一种面向对象、解释型计算机程序设计语言,由GuidovanRossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。

它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写。

比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C++重写。1发展历程编辑自从20世纪90年代初Python语言诞生至今,它逐渐被广泛应用于处理系统管理任务和Web编程。Python已经成为最受欢迎的程序设计语言之一。

参考资料:

百度百科-Python

关于“如何成为一个数据分析师?”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[凡珍]投稿,不代表空气号立场,如若转载,请注明出处:https://haokongqi.org.cn/cshi/202504-1653.html

(193)

文章推荐

  • 谁能给我介绍一下骚莎舞?

    网上科普有关“谁能给我介绍一下骚莎舞?”话题很是火热,小编也是针对谁能给我介绍一下骚莎舞?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。(古巴)骚莎舞从十五世纪哥伦布登陆古巴至今,古巴经历了漫长的帝国拓殖、海盗洗劫、独立战争、政治干预与经济封锁,每段历史过程

    2025年02月28日
    189
  • 可以把一个键盘同时接到两台电脑上吗

    网上科普有关“可以把一个键盘同时接到两台电脑上吗”话题很是火热,小编也是针对可以把一个键盘同时接到两台电脑上吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。用类似于KVM的分配器.或者用HUB(USB连接器)分别连接两台电脑,并接上1套鼠标/键USBHUB

    2025年03月01日
    169
  • 北京限号2021年3月最新限号(北京限号2021年3月最新限号区域)

    本篇文章给大家谈谈北京限号2021年3月最新限号,以及北京限号2021年3月最新限号区域对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。北京今天车辆限行尾号是多少今天是工作日,北京市的车辆限号规则如下:在周一至周五的日常通勤中,不同日期有限制不同的车牌尾号。具体来说,周一限行1和6,周二限

    2025年02月28日
    25
  • 实测教程“牵手湖南麻将有挂太坑了(疯狂农场种草养动物)

    网上科普有关“牵手湖南麻将有挂太坑了”话题很是火热,小编也是针对牵手湖南麻将有挂太坑了寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。  您好,牵手湖南麻将有挂太坑了这款游戏可以开挂的,确实是有挂的,通过微信【游戏】很多玩家在这款游戏中打牌都会发现很多

    2025年03月03日
    17
  • 实测教程“欢乐跑得快真能买到挂吗”果然有挂

    网上科普有关“欢乐跑得快真能买到挂吗”话题很是火热,小编也是针对欢乐跑得快真能买到挂吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。  您好,欢乐跑得快真能买到挂吗这款游戏可以开挂的,确实是有挂的,通过微信【游戏】很多玩家在这款游戏中打牌都会发现很多

    2025年03月06日
    14
  • 武威中盛同心商贸有限公司怎么样?

    网上科普有关“武威中盛同心商贸有限公司怎么样?”话题很是火热,小编也是针对武威中盛同心商贸有限公司怎么样?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。武威中盛同心商贸有限公司是2014-10-16在甘肃省武威市凉州区注册成立的有限责任公司(自然人独资),注

    2025年03月20日
    19
  • 压力表的连接方式有那些

    网上科普有关“压力表的连接方式有那些”话题很是火热,小编也是针对压力表的连接方式有那些寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。压力表的连接方式有:螺纹连接,法兰连接,夹子连接,软管连接。螺纹联接的特点:(1)螺纹拧紧时能产生很大的轴向力;(2)它能方便

    2025年03月22日
    11
  • 疫情后是什么时候(疫情是什么时候开始和结束的)

    本篇文章给大家谈谈疫情后是什么时候,以及疫情是什么时候开始和结束的对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。2020年武汉疫情后什么时候复工1、武汉工厂复工时间自2020年3月下旬起,武汉市开始逐步推动工厂企业复工复产。详细解释如下:随着全国疫情防控形势逐渐明朗,武汉市在做好疫情防

    2025年03月12日
    14
  • 疫情疫苗接种对身体有害吗知乎(接种疫情疫苗好不好)

    今天给各位分享疫情疫苗接种对身体有害吗知乎的知识,其中也会对接种疫情疫苗好不好进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!知乎暴露后21天接种狂犬病疫苗是否有效1、在暴露前进行接种,通常需要接种3针,时间分别为0天、7天和21天。这种接种方式可以有效预防狂犬病的发生。而暴

    2025年03月17日
    22
  • 石家庄的疫情什么时候解除(石家庄疫情何时解除)

    今天给各位分享石家庄的疫情什么时候解除的知识,其中也会对石家庄疫情何时解除进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!石家庄疫情最新消息封城什么时候结束?1、石家庄疫情封城时间始于2022年8月底,持续至9月初。解封时间定在9月中旬左右,但具体日期可能根据疫情发展进行调

    2025年03月22日
    22

发表回复

本站作者后才能评论

评论列表(4条)

  • 凡珍
    凡珍 2025年04月20日

    我是空气号的签约作者“凡珍”!

  • 凡珍
    凡珍 2025年04月20日

    希望本篇文章《如何成为一个数据分析师?》能对你有所帮助!

  • 凡珍
    凡珍 2025年04月20日

    本站[空气号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 凡珍
    凡珍 2025年04月20日

    本文概览:网上科普有关“如何成为一个数据分析师?”话题很是火热,小编也是针对如何成为一个数据分析师?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您...