python中标准化函数 python常用标准函数
为什么进行python标准化
解决因变量之间量纲不同,无法比较的问题。通过标准化使数据之间具有可比性。同时因为是线性变换,所以不改变原有的数据分布。
成都创新互联是一家专注于成都做网站、成都网站建设与策划设计,凉城网站建设哪家好?成都创新互联做网站,专注于网站建设10多年,网设计领域的专业建站公司;建站业务涵盖:凉城等地区。凉城做网站价格咨询:028-86922220
Python气象数据处理与绘图(2):常用数据计算方法
对于气象绘图来讲,第一步是对数据的处理,通过各类公式,或者统计方法将原始数据处理为目标数据。
按照气象统计课程的内容,我给出了一些常用到的统计方法的对应函数:
在计算气候态,区域平均时均要使用到求均值函数,对应NCL中的dim_average函数,在python中通常使用np.mean()函数
numpy.mean(a, axis, dtype)
假设a为[time,lat,lon]的数据,那么
需要特别注意的是,气象数据中常有缺测,在NCL中,使用求均值函数会自动略过,而在python中,当任意一数与缺测(np.nan)计算的结果均为np.nan,比如求[1,2,3,4,np.nan]的平均值,结果为np.nan
因此,当数据存在缺测数据时,通常使用np.nanmean()函数,用法同上,此时[1,2,3,4,np.nan]的平均值为(1+2+3+4)/4 = 2.5
同样的,求某数组最大最小值时也有np.nanmax(), np.nanmin()函数来补充np.max(), np.min()的不足。
其他很多np的计算函数也可以通过在前边加‘nan’来使用。
另外,
也可以直接将a中缺失值全部填充为0。
np.std(a, axis, dtype)
用法同np.mean()
在NCL中有直接求数据标准化的函数dim_standardize()
其实也就是一行的事,根据需要指定维度即可。
皮尔逊相关系数:
相关可以说是气象科研中最常用的方法之一了,numpy函数中的np.corrcoef(x, y)就可以实现相关计算。但是在这里我推荐scipy.stats中的函数来计算相关系数:
这个函数缺点和有点都很明显,优点是可以直接返回相关系数R及其P值,这避免了我们进一步计算置信度。而缺点则是该函数只支持两个一维数组的计算,也就是说当我们需要计算一个场和一个序列的相关时,我们需要循环来实现。
其中a[time,lat,lon],b[time]
(NCL中为regcoef()函数)
同样推荐Scipy库中的stats.linregress(x,y)函数:
slop: 回归斜率
intercept:回归截距
r_value: 相关系数
p_value: P值
std_err: 估计标准误差
直接可以输出P值,同样省去了做置信度检验的过程,遗憾的是仍需同相关系数一样循环计算。
Python 数据归一化/标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到(0,1]区间上
(1)0-1标准化
将数据的最大最小值记录下来,并通过max-min作为基数(即min=0,max=1)进行数据的归一化处理
x=(x - min) / (max - min)
(2)Z-score标准化
Z分数(z-score),是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数
数学意义:一个给定分数距离平均数多少个标准差?
python中使用lambda实现标准化?
lambda函数一般是在函数式编程中使用的。通举个栗子,对于这样一个list L,求L中大于3的元素集合L = [1, 2, 3, 4, 5]对于过程式编程,通常会这么写L3 = []for i in L:if i 3:L3.append(i)而对于函数式变成,只需要给filter函数一个判断函数就行了def greater_than_3(x):return x 3L3 = filter(greater_than_3, L)由于这个判断函数非常简单,用lambda来实现就非常简洁、易懂L3 = filter(lambda x: x 3, L)这是个很简单的例子,可以看出lambda的好处。lambda函数更常用在map和reduce两个函数中。当然,lambda函数也不见得都好,它也可以被用得很复杂,比如这个问题的答案,可以用python这样一句解决,这个lambda函数看起来那的确是挺辛苦的。
Python 标准化输出
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。相对于老版的%格式方法,它有很多优点。
1.在%方法中%s只能替代字符串类型,而在format中不需要理会数据类型;
2.单个参数可以多次输出,参数顺序可以不相同;
3.填充方式十分灵活,对齐方式十分强大;
4.官方推荐用的方式,%方式将会在后面的版本被淘汰。
1、按照默认顺序, 不指定位置
2、设置 指定位置 ,可以多次使用
3、使用 字典 格式化
4、通过 列表 格式化
填充与对齐 ^ 分别代表居中,左对齐,右对齐,后面数字表示宽度,':' 后面带填充的字符,只能是一个字符,不指定的话默认空格.
有时间写一下这个例子
暂时先放两个回头再补
用“,”还能做金额的千位分隔符。
python中支持向量机回归需要把数据标准化吗?
在使用支持向量机(SVM)进行回归分析时, 数据标准化是很重要的.
SVM 中的核函数是基于输入数据点之间的距离来定义的,如果数据点之间的距离是不一致的,那么核函数的结果就会受到影响。标准化可以确保所有特征在相同尺度上进行计算,避免因为某些特征取值范围过大而导致其他特征被忽略。
因此, 在使用SVM进行回归分析时, 应该对数据进行标准化,比如使用StandardScaler类对数据进行标准化。这样做可以使模型的预测更加准确。
本文标题:python中标准化函数 python常用标准函数
文章出自:http://myzitong.com/article/dodgppo.html