时间:2022-10-09 17:50:34 | 浏览:310
作者:Poli Dey Bhavsar
翻译:吴振东
校对:詹好
本文约2000字,建议阅读5分钟
本文会告诉你为什么Python是数据科学领域最受欢迎的编程语言之一。
为什么大多数数据科学家都喜欢Python?这篇文章会让你了解到,Python有很多完善的工具包可以协助你完成重要的数据科学任务。
根据Indeed,Glassdoor和Dice等职场网站所提供的信息,与去年同期相比,随着各行各业越来越依赖于数据进行决策,商业对数据科学家的需求也在继续扩大。
事实上,对于我们可以从不同的学习路径进入到热门的职业中,如何选择一条合适的道路取决于你现在所处的职业阶段。除去数学和统计学的要求外,编程方面的专业技术同样是数据科学必须掌握的一项技能。
让我们深度了解一下在数据科学社区中最受欢迎的编程语言。
Kaggle的一项调查结果显示,在数据科学家和机器学习爱好者的线上社区中,Python是使用率最高的编程语言,其次是SQL和R(请参看下图)。
参与这项调查的有近24000名从事数据相关职业的人员,其中3/4的调查对象建议那些立志成为数据科学家的人员以Python为学习旅程的起点。在这篇文章中,让我们来探索一下Python能够成为数据从业者中最受欢迎语言的原因,了解为什么做数据分析要选择Python。
数据科学家们需要处理复杂的问题,一般问题的解决过程都包括四个主要的步骤:数据收集和清洗、数据探索、数据建模和数据可视化。
Python可以在整个流程中提供必要有效的处理工具,每一个步骤都有专门的工具库,对此我们会在下面做详细介绍。Python包含许多强大的统计学和数学工具,比如Pandas, Numpy, Matplotlib, SciPy, scikit-learn等等,另外还包括先进的深度学习工具,比如Tensorflow, PyBrain等等。
此外,Python被认作是人工智能和机器学习的基础语言,而数据科学和人工智能又有着密切的交集。因此,Python被视为数据科学领域应用最广泛的语言并不会令人感到意外。
现在让我们一同来回顾一下数据科学处理问题过程中的各个步骤,以此来进一步了解Python在其中所扮演的角色。
1. 数据收集和清洗
2. 数据探索
3. 数据建模
4. 数据可视化和解释
通过Python,你可以加载各式各样不同格式的数据,比如说CSV(逗号分隔值)、TSV(制表符分隔值)或者来源自网络的JSON。
无论是你想直接把SQL表格载入到你的程序中,还是说需要爬取网站信息,Python都可以帮助你轻松完成这些任务:前一个任务可以用PyMySQL包,后一个任务可以用 BeautifulSoup包。PyMySQL可以让你轻松连接MySQL数据库、执行查询、抽取数据等。BeautifulSoup可以帮助你读取XML和HTML类型的数据。在提取和替换数值后,你可能要还在数据清洗阶段处理缺失值和无意义值。
此外,如果你在处理某一特殊的数据集时遇到麻烦,你可以去网上搜索这一数据集名称再加上“Python”,或许就能够找到解决方案。
现在你已经收集好数据,并对这些数据进行了标准化处理的工作,接下来就是进行数据探索了。在这一过程中你需要理清业务逻辑中所发现的问题,并将这一问题转换成标准化的数据科学问题。
为了实现这一点,需要对数据的类型进行进一步的探析,并将它们分离成不同的数据类型,比如说数值(numerical)、序数(ordinal)、标称(nominal)、类别(categorical)等,以便提供它们所需的处理方式。
一旦理清了数据所属的类别,就可以使用Python中用作数据分析的库NumPy和Pandas来对这些数据进行探索了。除此之外,Python在数据探索的过程提供了大量的工具,你可以在搜索引擎中进行检索来获得更多的信息。
当完成了这些步骤后,你就可以开始人工智能和数据建模机器学习步骤。
这对于数据科学流程来说是一个非常关键的阶段,而建模之前的特征选择阶段,你可能需要对现有的数据集进行降维的工作。Python语言能够非常方便的帮助你进行这一项任务,它拥有许多高级的工具库来帮助你解决这些问题。
你是否想要就自己的数据执行一个数值模型分析呢?只需要使用Python中的Numpy就行!利用SciPy你可以轻松地使用科学计数和计算。而Python上的Scikit-learn代码库给你很多直观的接口,帮助你在数据上应用机器学习算法,整个过程不会察觉到任何困难。
当数据建模完成后,你可能需要进行可视化展示,并对数据中有价值的情报进行解释。
Python带有许多数据可视化的包。Matplotlib 是最为常用的库,可以生成基本的图形和图表。如果你需要设计精美的高级图表,你也可以试一下另一个Python包Plotly。
还有一个Python包IPython,可以帮助你进行交互式数据可视化,并支持利用GUI工具箱。如果你想把你的调查结果嵌入到交互式网页中,nbconvert 函数可以帮助你将IPython转化或把Jupyter notebooks放入到HTML代码片段中。
在完成数据可视化之后,如何展示你的数据是极为重要的,并且这必须要以可以回应项目中业务逻辑的问题的为目的。
现在你可以用这些有价值的情报为之前业务逻辑中的问题来找寻答案,要谨记你的这些解释对于公司的项目干系人来说是很有帮助的。
为什么在踏上数据科学的旅程时使用Python编程,这篇文章已经给了你非常多的理由。这里还有一个新的理由,那就是顶级的科技巨头同样使用Python。这是亚马逊使用Python语言的原因:
作者简介:Poli Dey Bhavsar是Helios Solutions的编辑,她将自己的工作热情投入到撰写最新的科技趋势和IT进展中。她在业余喜欢制作美食、旅游、努力寻找生命的意义。
Poli Dey Bhavsar
https://www.heliossolutions.co/
原文标题:
Why Python is One of the Most Preferred Languages for Data Science?
原文链接:
https://www.kdnuggets.com/2020/01/python-preferred-languages-data-science.html
编辑:王菁
校对:林亦霖
译者简介
吴振东,法国洛林大学计算机与决策专业硕士。现从事人工智能和大数据相关工作,以成为数据科学家为终生奋斗目标。来自山东济南,不会开挖掘机,但写得了Java、Python和PPT。
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ THU数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。
以上两张图片,是笔者从微信群看到宜昌市各区县1至7月的部分经济指标,同时,这两项数据也是笔者最关心的经济指标。对于三四线城市来说,工业是经济发展的重要组成部分,可以说是经济发展的基础。而现在的增加值,离不开过去一定时期内的投入。如果说,工业
“我们的税务业务都可以在一个窗口集中办理,综合去受理,办事效率也特别高。“11月19日,在南乐县大数据中心,办事群众王晓辉高兴地给办税人员竖起大拇指,”我们有一些不懂的、不会的,他们都会积极去引导,我觉得他们特别棒。“(图文/王峥 佳鑫)南
图片来源@视觉中国一周前,诺贝尔物理学奖结果公布,值得注意的,获奖的三位科学家有一个共同点就是在复杂物理系统上做出了开创性贡献。其中真锅秀郎和克劳斯·哈塞尔曼的研究对象是地球气候以及人类如何影响地球气候,乔治·帕里西研究的则是无序材料和随机
普通程序员,不学算法,也可以成为大神吗?对不起,这个,绝对不可以。可是算法好难啊~~看两页书就想睡觉……所以就不学了吗?就一直当普通程序员吗?如果有一本算法书,看着很轻松……又有代码示例……又有讲解……怎么会有那样的书呢?哎呀,最好学了算法
转眼间,已经到了苹果iPhone面世的第16年。从初代iPhone到现在的iPhone13系列,给我们带来了许多经典与回忆。但让许多朋友不解的是,在手机像素动辄过亿的时代,iPhone依旧坚持1200万像素的“初心”。回首初代iPhone,
【科学预防近视 看看眼科专家的建议】 01用眼注意劳逸结合减少持续近距离用眼的时间,避免过多使用电子产品,即使是看纸质版的阅读物,也应该尽量缩短持续阅读的时间。向窗外远眺,多看看远处的物体和绿色的植物。视远与看近相结合,放松眼部肌肉,使眼睛
近日,云南红河湾塘小学在开学视力抽检中全校500多名学生无一近视近年来该校不仅保持着近视率为零的纪录双眼视力5.2的学生更是高达80%很多人羡慕 但真要做到如此难度不小△湾塘小学的学生测视力国家卫健委公布的数据显示2021年我国近视人口高达
10月15号是国际盲人日,生活中很多不良的用眼习惯和眼部疾病都在悄悄偷走你的视力,跟着医生一起了解爱眼护眼的小知识。据统计,我国80%以上的盲症患者来自50岁以上人群,医生介绍,白内障、青光眼、黄斑病变等眼科疾病都有可能致盲,其中致盲率最高
今天(10月13日)是世界视力日。据国家卫生健康委疾控局数据显示,2020年我国儿童青少年总体近视率达到52.7%。我们该如何保护孩子们的视力呢?保护视力、预防近视是童年时期一项非常重要的功课。眼科医生提示,由于低龄儿童自控力尚未形成,更没
央视网消息:今天(10月13日)是世界视力日。据国家卫生健康委疾控局数据显示,2020年我国儿童青少年总体近视率达到52.7%。我们该如何保护孩子们的视力呢?保护视力、预防近视是童年时期一项非常重要的功课。眼科医生提示,由于低龄儿童自控力尚