首页 > 数码 >
阅读

大样本离群数据取舍的标准误差处理的部分应用

时间:2023-08-06 09:14 来源:网络 作者: 小晨

简介:涉及到几个手段,区别是: 1.14d检验法 1.2Q检验法 1.3Grubbs检验法 1.4偏态峰态数据分布正态性检验法 1.5相对极差 1.6STD、RSD 说明:本文公式均为Excel公式,那种大计算公式懒得敲。 对于以上6种手段,其中13为离群值的剔除,4也能做离群值的剔除,详见GB/T 48832008偏度峰度检验法,56为整体离散度的一

【晨说网探索分享】

涉及到几个手段,区别是:

1.14d检验法

1.2Q检验法

1.3Grubbs检验法

1.4偏态峰态数据分布正态性检验法

1.5相对极差

1.6STD、RSD

说明:本文公式均为Excel公式,那种大计算公式懒得敲。

对于以上6种手段,其中13为离群值的剔除,4也能做离群值的剔除,详见GB/T 48832008偏度峰度检验法,56为整体离散度的一个判断。

2、离散度

图片来自百度,侵删。

离散程度,英文名Measures of Dispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。

定义来自百度百科。

2.1相对极差:

示意图2.1

极差:

对照上图能看得出来,极差做的就是离散的判断,最基本的计算,所以也叫做全距。

相对极差:

对照上图能看得出来,引入平均值后,对于相同极差的数据也能够体现出不同的离散度。

但是相对极差不如极差显著。

2.2STD、RSD:

示意图2.2

STD:

对照示意图2.2能看出来,两组数据的离散是一致的,但是两组数据实际并不在一个范畴中,一个属于1以下,一个属于10以上。标准偏差是每个值与平均值比较,因为乘方的关系会扩大这种差异,对于1、2、3、4、5和1、2、2、5、5这种数据,极差是无法处理的,标准偏差就能明确的给出离散程度的分别。

能看下面这个示例:

示例图2.2

RSD:

对照示意图2.2能看得出来,相对标准偏差体现出了两组范畴不同的数据的差别,同样也因为这个平均值,对于10.112和0.112这两组数据就明显体现出精密度的差别了,一个是五位有效数字一个是三位有效数字,同样波动下,显然五位有效数字这组精密度更好。

3、离群值

上面的方法做了离散度的判断,那么具体有哪些值离群了呢?是否能非主观的去判断离群值从而方便查找真相和数据处理呢?

有。

3.14d检验法:很简单的小方法,问题也不少,先说计算。

示意图3.1

4d检验法

适用于10个数据以上的处理,如果数据量在5~10,能酌情使用2.5d,问题是数据量不够的时候<10,容易无法正确判断是否离群值。

3.2Q检验法:适用于10个数据以内的处理。

示意图3.2

Q检验法:

3.2.1选取可疑值:

3.2.2计算测定次数

3.2.3与可疑值最接近的值的绝对差值

3.2.4Q值

3.2.5查表

这里解释一下,数据是5个没错,晨说网,但是因为查询表返回的数值是以0.01那行开始计算的,index的作用是返回对应行、列的数值,那么查出来0.01那一列的数据,如果用5,就会查到7和0.01交叉的数值,但是数据实际是n=3开始的,所以要2。

3.2.6判断

3.3Grubbs检验法:

示意图3.3

Grubbs检验法:

3.3.1上侧

3.3.2下侧

3.3.3判断

IF上侧>临界值,"上侧检出:"&MAX范围,"上侧未检出"&","&IF下侧>临界值,"下侧检出:"&MIN范围,"下侧未检出"

稍做一下改变:

示例图3.3.31

再做一下改变:

示例图3.3.32

还做一下改变:

示例图3.3.33

对于检测来说,如果整组数据RSD符合就没必要再去剔除离群值。

3.4偏态峰态数据分布正态性检验法:

数据是正态分布以上手段才是有效的。那么就验证正态分布吧。

示意图3.4

偏态峰态数据分布正态性检验法:

3.4.1母体方差

解释一下power函数中的2改3、改4就能。

3.4.2A偏态

解释一下,0.5即开方。

3.4.3B峰态

3.4.4判断

偏态判定:IF偏态<INDEXXLOOKUP置信概率&"偏态A1"查询范围,返回范围,MATCHCOUNT范围,范围,0,"通过","不通过"

解释一下,match中的0为精确查找,就是=。

峰态判定:IFANDINDEXXLOOKUP置信概率"峰态B1",查询范围,返回范围,MATCHCOUNT数据量,范围,0<峰态,峰态<INDEXXLOOKUP置信概率&"峰态B2",查询范围,返回范围,MATCHCOUNT范围,范围,0,"通过","不通过"

最后判定:

这东西没有一定数据量没啥意义,一般会结合Grubbs剔除异常值后去做,先上100个数据。

声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理。