EDA画图函数的数据类型

step1:导入数据并了解数据轮廓
查看各个特征的基本数据类型并且计算哪些特征缺失值比较多。
将特征的数据类型分为数值型和离散型两大类。
step2: 分析特征和标签的分布情况
单变量分布
对于连续特征
给出特征分布(可以不考虑缺失值)
sns.distplot(df[fare])
对于离散特征
就是看特征分布是否均衡
sns.countplot(x='survived', data=df)
sns.catplot(x=pclass, kind=count, palette=ch:.25, data=df) ## 这也是countplot
多变量分布(可以是特征之间也可以是特征与标号之间)
连续变量与连续变量
scatter plot
sns.relplot(x=age, y=fare, data=df); ## replot是一个figure-level的function,它的默认方法是scatterplot
可以用hue参数引入第三维变量
sns.relplot(x=age, y=fare, hue = 'pclass',data=df);
lineplot,如时序特征
g = sns.relplot(x=age, y=fare, kind=line, data=df)
将x轴的特征按大小排序,然后连接起来。
注意上图中的线条并不只有一条线,而是一个范围的区域,这是因为同一个x值可能有多个y值与之对应,颜色最深的线就是他们的均值,上下的范围是95%的置信度区域。
可以通过设置参数ci=none来屏蔽置信度区域。
也可以通过hue参数引入第三个变量(一般为离散的特征比较合适)。
g = sns.relplot(x='age',y ='fare',hue='sex',kind='line',data=df)
可以通过使用col参数更直观地展示三个(或四个,使用hue参数)变量之间的关系
g = sns.relplot(x='age',y='fare',kind='line',col='pclass',data=df)
连续变量与离散变量
scatter plot
sns.catplot(x=pclass, y=fare, data=df);
boxplot
表示每个离散变量的取值对应的另一个特征的分布,另一个特征是连续特征,如果是离散特征的话画出来的图非常奇怪
sns.catplot(x=pclass, y=fare, kind=box, data=df);
当然也可以使用hue参数引入第三个变量(应该是离散的)
sns.catplot(x=pclass, y=fare,hue = 'sex', kind=box, data=df);
barplot
感觉这个方法与boxplot的方法比较相似,统计的是均值和标准差,而boxplot是均值、分位点和异常点的范围。
sns.catplot(x=pclass, y=fare,hue = 'sex', kind=bar, data=df);
离散变量与离散变量
探索离散变量a与b之间的关系实际上就相当于探索 当a等于某个值时b的各个值的分布情况,可以用如下函数:
sns.catplot(y=sex, hue=pclass, kind=count, palette=pastel, edgecolor=.6, data=df);
对于标签
回归问题就是画图分布
离散问题就是看类分布是否均衡

常见的电子调光台灯电子电路图
它们靠一颗螺帽 挤入苹果供应链
企业在紧缩的IT基础架构预算和虚拟化采用的增长中竞争
聊聊BMS测试的那些事儿
阿迪达斯推出智能心率手表 专为学生设计
EDA画图函数的数据类型
社会经济发展和水利工程给气滑环领域带来的机遇和挑战
人工智能时代 将会导致一些职位消失
什么是阻焊层?阻焊层在PCB中的作用是什么?
机器人市场详细分析,机器人市场潜力大,工业机器人岗位空缺严重
基于TLC549的数据采集系统设计
晶体管对功率放大有哪些要求,如何克服交越失真
【回顾往年CES】爱奇艺品牌VR一体机亮相展会,将争夺VR硬件行业市场
电池性能测试实验有哪些?(详细篇)
【新品】边缘采集网关再添一员,可直连自建服务器!
智慧快速路解决方案助推绍兴自动驾驶产业应用布局
新泓能光波房品牌的两大生产工厂
采用高精度ADR434芯片和EPM7064SLC84-10芯片实现波形发生器的设计
华为鸿蒙OS Beta版发布,什么时候能给手机升级
外媒评测: 华为荣耀8续航最强,超过三星苹果!