1. 如何做残差分析?
残差是指实际观察值与回归估计值的差,即 ,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰 。
可以通过Matlab作残差图来分析残差,比如:
程序如下:
x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';
X=[ones(16,1) x];
Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
[b,bint,r,rint,stats]=regress(Y,X)
rcoplot(r,rint)
残差图:
从残差图可以看出数据的残差离零点的远近,当残差的置信区间均包含零点,这说明回归模型能较好的符合原始数据,否则可视为异常点。
2. 剔除异常数据的原则与方法;
原则:异常数据是指与其它数据产生的条件有明显不同的数据,因此异常数据的残差会特别的大。一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归方程的质量 。发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法。对残差在置信带以外的数据都要进行检查,以区别是否是异常数据,如果是异常数据就要剔除掉。
方法㈠:⑴对于线性数列,求出所有相邻两数之差,得到一个新的数列,然后统计新数列的众数(就是出现最多的那个)得到线性数列的公差;⑵然后假设第一个数是非异常数字;⑶假设数据不断加公差,看看绝大大多数是不是在原线性数列中,分情况:①若是,则第一个数以及第一个数加公差与原数列相同的元素均为非异常数据,其他则为异常数据;②若不是,则第一个数为异常数列,再假设第2个非异常数据,返回到第⑶步。一直找到满足条件的数为止。
方法㈡:实验数据一般用图表示,把所有元素对应的点放在一张图上,寻找直线,使尽可能多的点落在直线上,偏离直线比较远的数据就可以去掉了。
09级(4)班
辛磊