灰色预测模型GM (1,1)
§1 预备知识
平面上有数据序列()()(){}n n y x y x y x ,,,,,,2211 ,大致分布在一条直线上。
设回归直线为:b ax y +=,要使所有点到直线的距离之和最小(最小二乘),即使误
差平方和()∑=--=n
i i i b ax y J 1
2
最小。J 是关于a , b 的二元函数。由
()()()()⎪⎪⎩⎪⎪⎨⎧=-⋅--⋅=∂∂=-⋅--⋅=∂∂∑∑==0
12021
1
n
i i
i i n
i i i i i b x a y b J x b x a y a J
()
()⎪⎪⎩⎪⎪⎨⎧=--=--⇒∑∑==001
1
2
n
i i i n i i i i i b a y bx ax y x 则得使J 取极小的必要条件为:
⎪⎩⎪⎨⎧=
+=+⋅∑∑∑∑∑=i i
i
i n i i i y nb x a y x x b x a 1
2
(*)
()()
()()()
()()⎪⎪
⎩
⎪
⎪⎨⎧--=--=∑∑∑∑∑∑∑∑∑∑∑22
2
2
2i i i i i i i i i i i i i x x n y x x x y b x x n y x y x n a (1) 以上是我们熟悉的最小二乘计算过程。下面提一种观点,上述算法,本质上是用实际观测数据i x 、i y 去表示a 与b ,使得误差平方和J 取最小值,即从近似方程
⎪⎪⎪⎪
⎪⎭
⎫ ⎝⎛+⎪⎪⎪⎪⎪⎭⎫ ⎝⎛≈⎪⎪⎪⎪⎪⎭⎫ ⎝⎛b b b x x x a y y y n n 2121 中形式上解出a 与b 。把上式写成矩阵方程。 令 ⎪
⎪⎪⎪⎪⎭
⎫ ⎝⎛=n y y y Y
21,⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭
⎫
⎝⎛=∴b a x x
x Y n 1112
1
x
令 ⎪⎪⎪⎪⎪⎭
⎫
⎝⎛=1112
1n x x x B ,则⎪⎪⎭⎫ ⎝⎛=b a B Y 左乘T B 得
⎪⎪⎭
⎫ ⎝⎛=b a B B Y B T T
注意到B T B 是二阶方阵,且其行列式不为零,故其逆阵(B T B )-1存在,所以上式左乘
()
1
-B B T
得
[]
Y B B B b a T T
1
-
=⎪
⎪⎭
⎫
⎝⎛
(2)
可以具体验算按最小二乘法求得的结果(1)与(2)式完全相同,下面把两种算法统一一下:
由最小二乘得结果:
方程(*) ⎪⎩⎪⎨⎧=
+=+⋅∑∑∑∑∑=i i
i
i n i i i y nb x a y x x b x a 12
方程组改写为:
⎪⎪⎪⎪
⎪
⎭
⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝
⎛∑∑∑n n i i
i y y y x x x b a n x
x
x 212
1
2
11
1
令:⎪⎪
⎪⎪
⎪
⎭⎫
⎝⎛=11121n x x x B ,⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=n y y y Y 21,⎪⎪⎭⎫ ⎝⎛=b a a ˆ (*)化为
()Y B a
B B T T =ˆ 所以
()
Y B B B a
T T ⋅⋅=-1
ˆ 以后,只要数据列(){}
()n j y x j j ,,2,1, =大致成直线,既有近似表达式
n i b
ax y i i ,,2,1 =+=
当令:⎪
⎪⎪⎪⎪⎭
⎫ ⎝⎛=n y y y Y 21,⎪⎪
⎪⎪
⎪⎭⎫ ⎝⎛=11121n x x x B ,⎪⎪⎭⎫ ⎝⎛=b a a ˆ 则有 a
B Y ˆ= ()
y B B B a
T T ⋅⋅=-1
ˆ
(2)
(2)式就是最小二乘结果,即按最小二乘法求出的回归直线b
=的回归系数a
ax
y+
与b 。
推广:
多元线性回归
设有m 个变量m x x x ,,,21 ,每个自变量有n 个值,因变量y 有n 个值
⎪⎪⎩⎪⎪
⎨
⎧++++=++++=++++=mn
m n n n m m m m x b x b x b a y x b x b x b a y x b x b x b a y n 22112
22212121212111121 (1)
如n 个人,每人有m 个指标。
女生: 人: 1x (体重) 公斤
2x (胸围) 厘米
3x (呼吸差) 厘米 k y (肺活量)
毫升 1 11x =35 21x =69 31x =0.7
1600 2 12x =40 22x =74 32x =2.5 2600 3 13x =40 23x =64 33x =2.0 2100 4 14x =42 24x =74 34x =3 2650 5 15x =37 25x =72 35x =101 2400 6 16x =45 26x =68 36x =105 2200 7 17x =43 27x =78 37x =403 2750 8 18x =37
28x =66 38x =2 1600 9 19x =44 29x =70 39x =302 2750
10
10x =42
20x =65
30x =3
2500
方程组(1)是n 个方程m 个数据
⎪
⎪⎪⎪
⎪⎪⎭
⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫
⎝
⎛=m mn n
n m m b b b a x x x x x x x x x Y
212122212112111
11 用X 表示增广矩阵:n 行,m +1列
⎪⎪⎭⎫ ⎝⎛=b a X Y ˆ,⎪⎪
⎪⎪⎪
⎭
⎫ ⎝⎛=m b b b b 21ˆ,⎪⎪⎭⎫ ⎝⎛=⋅b a X X Y X T T ˆ ()
Y X X X b a T T ⋅=⎪⎪⎭
⎫ ⎝⎛∴-1
ˆ 其中X X T 为()()11+⨯+m m 阶矩阵。 由此可解出:m b b b a ,,,,21
注意:方程组中m b b b a ,,,,21 不知,意思是:如果线性关系成立
m m x b x b x b a y ++++= 2211
当m b b b a ,,,,21 为多少时,i y 到m m x b x b x b a ++++ 2211的距离之和为最小。
或说,当所有i y 到(m m x b x b x b a ++++ 2211)距离之和为最小时的m b b b a ,,,,21 就是我们要求的最佳系数。
§2 GM 模型前言
为什么要讲GM (1,1)模型?
80年代初,华中理工大学邓聚龙教授提出了灰色系统理论,先后发表过灰色控制、灰色预测、灰色决策、灰色系统理论等多部专著,较详细在阐述了灰色系统理论的产生、理论、方法与应用。在80年代中后期到90年代初,举行了十数次国际、国内有关灰色系统理论的研讨会,在全国形成一股灰色系统理论研究与应用热潮。邓聚龙先生因灰色系统理论方面的供献,获得国家科技进步一等奖。 什么叫灰?用邓先生自己的话来讲:“完全已知的系统称作白系统;完全未知的系统称作黑系统或黑箱;部分已知、部分未知的系统称作灰色系统。”在此,已知或未知到什么程度没有具体说明。所以,“灰”的内涵不是很清楚。举个例子讲,已知某量的真值x 在闭区间[a , b ]上,不可能落在[a , b ]之外,但具体落到区间[a , b ]的什么位置则是完全不知道的。那么,这个量称作灰量,可具体表示为[a , b ],称其为区间灰数。显然,区间灰数
是客观实际中存在的,除了知道真值x 在[a , b ]上,而不在[a , b ]之外,不再有任何已知
信息,这就是灰量的最基本原型。
由于灰色系统理论从一开始就没有建立在严格的集合论基础之上,使之缺乏必要的数学支撑,这大大限制了灰色系统理论和应用的发展。虽然灰色系统理论在控制、预测、决策等领域有着广泛的应用;但就其精华而言,还在于GM (1,1)模型。即便是现在,在特定情况下,GM (1, 1)还有用,还在被应用,并且预测效果很好。其使用限制条件是:原始数据单调,预测背景呈现稳定发展趋势;其优势是:
适用于原始观测数据较少的预测问题,由于数据量很小,无法应用概率统计方法寻找统计规律,而GM (1, 1)模型恰恰弥补了这个空白,由于GM (1, 1)算法简单易行,预测精度相对较高,所以在一些特定问题中,GM (1, 1)仍然是决策者乐于选择的预测模型。
上面讲到的背景稳定的发展趋势是指下述情况:如化工设备的腐蚀量,随着使用时间的推移腐蚀不断增加,呈现出稳定的发展趋势,并且腐蚀量的测量通常比较困难(如停产才能测量),所以实际观测数据较少。这类问题很适合GM (1, 1)模型预测。
§3 GM (1, 1)预备知识
3.1回忆一阶线性常系数微分方程
u ax dt
dx
=+ (1)
其解为:
a u e a u x x at +⎪⎭⎫ ⎝
⎛
-=-)0(
(2)
其中a ,u 为给定的常数。
一阶线性常系数微分方程(1)的解(2)是指数型曲线,如下图所示
~