菜鸟学Python”,选择“星标”公家号
超等无敌干货,第一时间送达!!!
摸索性数据阐发是数据科学模子开发和数据集研究的重要构成部门之一 。在拿到一个新数据集时起首就需要破费大量时间停止EDA来研究数据集中内在的信息。主动化的EDA Python包能够用几行Python代码施行EDA。在本文中整理了10个能够主动施行EDA并生成有关数据的见解的Python包,看看他们都有什么功用,能在多大水平上帮我们主动化处理EDA的需求。
DTale
Pandas-profiling
sweetviz
autoviz
dataprep
KLib
dabl
speedML
datatile
edaviz
1、D-Tale
D-Tale利用Flask做为后端、React前端而且能够与ipython notebook和末端无缝集成。D-Tale能够撑持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。
展开全文
importdtale
importpandas aspd
dtale.show(pd.read_csv( "titanic.csv"))
D-Tale库用一行代码就能够生成一个陈述,此中包罗数据集、相关性、图表和热图的总体总结,并凸起显示缺失的值等。D-Tale还能够为陈述中的每个图表停止阐发,上面截图中我们能够看到图表是能够停止交互操做的。
2、Pandas-Profiling
Pandas-Profiling能够生成Pandas DataFrame的概要陈述。panda-profiling扩展了pandas DataFrame df.profile_report,而且在大型数据集上工做得十分好,它能够在几秒钟内创建陈述。
#Install the below libaries before importing
importpandas aspd
frompandas_profiling importProfileReport
#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv( 'titanic.csv'), explorative= True)
#Saving results to a HTML file
profile.to_file( "output.html")
3、Sweetviz
Sweetviz是一个开源的Python库,只需要两行Python代码就能够生成标致的可视化图,将EDA(摸索性数据阐发)做为一个HTML应用法式启动。Sweetviz包是围绕快速可视化目的值和比力数据集构建的。
importpandas aspd
importsweetviz assv
#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv( "titanic.csv"))
#Saving results to HTML file
sweet_report.show_html( 'sweet_report.html')
Sweetviz库生成的陈述包罗数据集、相关性、分类和数字特征联系关系等的总体总结。
4、AutoViz
Autoviz包能够用一行代码主动可视化任何大小的数据集,并主动生成HTML、bokeh等陈述。用户能够与AutoViz包生成的HTML陈述停止交互。
importpandas aspd
fromautoviz.AutoViz_Class importAutoViz_Class
#EDA using Autoviz
autoviz = AutoViz_Class.AutoViz( 'train.csv')
5、Dataprep
Dataprep是一个用于阐发、筹办和处置数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,能够很容易地与其他Python库集成。
DataPrep的运行速度那10个包中最快的,他在几秒钟内就能够为Pandas/Dask DataFrame生成陈述。
fromdataprep.datasets importload_dataset
fromdataprep.eda importcreate_report
df = load_dataset( "titanic.csv")
create_report(df).show_browser
6、Klib
klib是一个用于导入、清理、阐发和预处置数据的Python库。
importklib
importpandas aspd
df = pd.read_csv( 'DATASET.csv')
klib.missingval_plot(df)
klib.corr_plot(df_cleaned, annot= False)
klib.dist_plot(df_cleaned[ 'Win_Prob'])
klib.cat_plot(df, figsize=( 50, 15))
klibe固然供给了良多的阐发函数,但是关于每一个阐发需要我们手动的编写代码,所以只能说是半主动化的操做,但是若是我们需要更定造化的阐发,他长短常便利的。
7、Dabl
Dabl不太存眷单个列的统计度量,而是更多地存眷通过可视化供给快速概述,以及便利的机器进修预处置和模子搜刮。
dabl中的Plot函数能够通过绘造各类图来实现可视化,包罗:
目的散布图
散点图
线性判别阐发
目的散布图
散点图
线性判别阐发
importdabl
df = pd.read_csv( "titanic.csv")
dabl.plot(df, target_col= "Survived")
8、Speedml
SpeedML是用于快速启动机器进修管道的Python包。SpeedML整合了一些常用的ML包,包罗 Pandas,Numpy,Sklearn,Xgboost 和 Matplotlib,所以说其实SpeedML不单单包罗主动化EDA的功用。
SpeedML官方说,利用它能够基于迭代停止开发,将编码时间缩短了70%。
fromspeedml importSpeedml
sml = Speedml( '../input/train.csv', '../input/test.csv',
target = 'Survived', uid = 'PassengerId')
sml.train.head
sml.plot.correlate
sml.plot.distribute
sml.plot.ordinal( 'Parch')
sml.plot.ordinal( 'SibSp')
sml.plot.continuous( 'Age')
9、DataTile
DataTile(以前称为Pandas-Summary)是一个开源的Python软件包,负责办理,汇总和可视化数据。DataTile根本上是PANDAS DataFrame describe函数的扩展。
importpandas aspd
fromdatatile.summary.df importDataFrameSummary
df = pd.read_csv( 'titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary
10、edaviz
edaviz是一个能够在Jupyter Notebook和Jupyter Lab中停止数据摸索和可视化的python库,他原来长短常好用的,但是后来被砖厂(Databricks)收买而且整合到bamboolib 中,所以那里就简单的给个演示。
总结
在本文中,我们介绍了10个主动摸索性数据阐发Python软件包,那些软件包能够在几行Python代码中生成数据摘要并停止可视化。通过主动化的工做能够节省我们的良多时间。
Dataprep是我最常用的EDA包,AutoViz和D-table也是不错的选择,若是你需要定造化阐发能够利用Klib,SpeedML整合的工具比力多,零丁利用它啊停止EDA阐发不是出格的适用,其他的包能够按照小我爱好选择,其实都仍是很好用的,最初edaviz就不要考虑了,因为已经不开源了。
来源丨数据STUDIO
入门: 最全的零根底学Python的问题 | 零根底学了8个月的Python |实战项目 | 学Python就是那条捷径
干货:爬取豆瓣短评,片子《后来的我们》 | 38年NBA更佳球员阐发 |从万寡等待到口碑扑街!唐探3令人绝望 | 笑看新倚天屠龙记 | 灯谜答题王 | 用Python做个海量蜜斯姐素描图 | 碟中谍那么火,我用机器进修做个迷你保举系统片子
兴趣:弹球游戏 | 九宫格 | 标致的花 | 两百行Python《天天酷跑》游戏!
AI:会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍那么火,我用机器进修做个迷你保举系统片子
小东西: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保留为pdf! |再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 造做一款钉钉低价机票提醒器! |60行代码做了一个语音壁纸切换器天天看蜜斯姐! |
年度爆款案牍
1). 卧槽!Pdf转Word用Python轻松搞定 !
2).学Python实香!我用100行代码做了个网站,帮人PS游览图片,赚个鸡腿吃
3).首播过亿,火爆全网,我阐发了《披荆斩棘的姐姐》,发现了那些奥秘
4). 80行代码!用Python做一个哆来A梦分身
5).你必需掌握的20个python代码,短小精悍,用途无限
6). 30个Python奇淫技巧集
7). 我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
8). 再见Python!我要学Go了!2500字深度阐发 !
9).发现一个舔狗福利!那个Python爬虫神器太爽了,主动下载妹子图片