一、灰色系统理论

灰色是外延明确,內延不明确

1.1 基本概念

信息完全已知——白
信息完全未知——黑
部分信息明确,部分信息不明确——灰

1982年,中国学者邓聚龙教授创立灰色系统理论,是一种研究少数据,贫信息不确定性问题的新方法。该理论以“部分信息已知,部分信息未知”的“少数据”,“贫信息”不确定性系统为研究对象,主要通过对“部分”已知信息的挖掘,提取有价值的信息,实现对系统运行行为、演化规律的正确描述和有效监控。

不确定性的系统四种常用的研究方法

  1. 灰色系统理论 (贫信息不确定)
  2. 模糊数学 (认知不确定)
  3. 粗糙集理论 (边界不清晰)
  4. 概率统计 (随机不确定)

不确定性系统的基本特征

  • 信息不完全
  • 数据不准确.

1.2 灰数

灰数是指只知道取值范围,不知其确切值,即在某一个范围内取值不确定的数。通常用记号“ ⊗ \otimes ”表示灰数。

灰数有以下几类:

  1. 仅有下界的灰数 ⊗ ∈ [ a , + ∞ ) \otimes \in \left[ a,+\infty \right) [a,+)
  2. 仅有上界的灰数 ⊗ ∈ ( − ∞ , a ] \otimes \in \left( -\infty ,a \right] (,a]
  3. 区间灰数 ⊗ ∈ [ a , b ] \otimes \in \left[ a,b \right] [a,b]
  4. 连续灰数 或者 离散灰数 比如身高、体重,年龄

黑数 ⊗ ∈ ( − ∞ , + ∞ ) \otimes \in \left( -\infty ,+\infty \right) (,+) ,完全不确定
白数 ⊗ = a \otimes =a =a ,完全确定

灰色评价方法是一种可以较有效解决评价指标难量化、难统计的问题的方法,受主观因素影响小。计算过程简单,可用原始数据进行直接计算,只要有代表性的少量样本方能进行计算。

二、灰色聚类评价模型

灰色聚类可分为两种:一种为灰色关联聚类,用于同类因素的归并;另一种是灰色白化权聚类,用于检测观测对象属于何类。

灰色关联聚类可以检查是否存在若干因素大体属于一类,使这一类的综合平均指标或其中的具有代表性的因素来代表这一类因素,而使信息不受严重损失。

白化权聚类就是通过灰色理论中的白化权函数,计算各聚类对象对不同指标拥有的白化权值,以便区分其灰类的方法。通过此种方法检验观测对象应归属于先前设定的何种类别,并确定评价结论。该方法对样本量的多少和样本有无规律均适用,计算量小,其量化结果不会违背定性分析的结论,适用于评价信息不确切不完全,具有典型灰色特征的系统。

2.1 灰色关联聚类模型

2.2 灰色变权聚类评价模型

设有 n 个聚类对象,m 个聚类指标,s 个不同灰类,对象 i 关于指标 j 的样本观测值为
x i j  , i = 1 , 2 , ⋯   , n ; j = 1 , 2 , ⋯   , m x_{ij}\ \text{,}i=1,2,\cdots ,n\text{;}j=1,2,\cdots ,m xij i=1,2,,nj=1,2,,m

设 j 指标 k 子类的白化权函数 f j k ( ⋅ ) f_j^k\left( \cdot \right) fjk(),一般来说,某个灰数的白化权函数是根据已知信息设计的,其中,几种常见的函数及其图像分别如图
在这里插入图片描述
其中, x j k ( 1 ) , x j k ( 2 ) , x j k ( 3 ) , x j k ( 4 ) x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,x_j^k\left( 3 \right) ,x_j^k\left( 4 \right) xjk(1),xjk(2),xjk(3),xjk(4) f j k ( ⋅ ) f_j^k\left( \cdot \right) fjk()转折点。

  1. 典型白话权函数
    f j k [ x j k ( 1 ) , x j k ( 2 ) , x j k ( 3 ) , x j k ( 4 ) ] f_j^k\left[ x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,x_j^k\left( 3 \right) ,x_j^k\left( 4 \right) \right] fjk[xjk(1),xjk(2),xjk(3),xjk(4)]

在这里插入图片描述

典型白化权函数有:
在这里插入图片描述
2. 下限测度白化权函数
f j k [ − , − , x j k ( 3 ) , x j k ( 4 ) ] f_j^k\left[ -,-,x_j^k\left( 3 \right) ,x_j^k\left( 4 \right) \right] fjk[,,xjk(3),xjk(4)]
在这里插入图片描述
下限测度白化权函数有:

在这里插入图片描述
3. 适中测度白化权函数
f j k [ x j k ( 1 ) , x j k ( 2 ) , − , x j k ( 4 ) ] f_j^k\left[ x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,-,x_j^k\left( 4 \right) \right] fjk[xjk(1),xjk(2),,xjk(4)]

在这里插入图片描述
适中测度白化权函数有:

在这里插入图片描述
4. 上限测度白化权函数
f j k [ x j k ( 1 ) , x j k ( 2 ) , − , − ] f_j^k\left[ x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,-,- \right] fjk[xjk(1),xjk(2),,]

在这里插入图片描述

上限测度白化权函数有:
在这里插入图片描述


定义 λ j k \lambda _j^k λjk 为 j 指标 k 子类的临界值,因此

对于典型白化权函数有:
λ j k = x j k ( 2 ) + x j k ( 3 ) 2 \lambda _j^k=\frac{x_j^k\left( 2 \right) +x_j^k\left( 3 \right)}{2} λjk=2xjk(2)+xjk(3)

下限测度白化权函数有:
λ j k = x j k ( 3 ) \lambda _j^k=x_j^k\left( 3 \right) λjk=xjk(3)

适中测度白化权函数有:
λ j k = x j k ( 2 ) \lambda _j^k=x_j^k\left( 2 \right) λjk=xjk(2)

上限测度白化权函数有:
λ j k = x j k ( 2 ) \lambda _j^k=x_j^k\left( 2 \right) λjk=xjk(2)


定义 j 指标 k 子类的权为
η j k = λ j k ∑ j = 1 m λ j k \eta _j^k=\frac{\lambda _j^k}{\sum_{j=1}^m{\lambda _j^k}} ηjk=j=1mλjkλjk

m 为 聚类指标个数


x i j x_{ij} xij 为对象 i 关于指标 j 的观测值, f j k ( ⋅ ) f_j^k\left( \cdot \right) fjk() 为 j 指标 k 子类白化权函数, η j k \eta _j^k ηjk 为 j 指标 k 子类的权,则称

σ j k = ∑ j = 1 m f j k ( x i j ) ⋅ η j k \sigma _j^k=\sum_{j=1}^m{f_j^k\left( x_{ij} \right) \cdot \eta _j^k} σjk=j=1mfjk(xij)ηjk

为对象 i 属于 灰类 k 的灰色变权聚类系数


对象 i 的聚类系数向量

σ i = ( σ i 1 , σ i 2 , ⋯   , σ i s ) = ( ∑ j = 1 m f j 1 ( x i j ) ⋅ η j 1 , ∑ j = 1 m f j 2 ( x i j ) ⋅ η j 2 , ⋯   , ∑ j = 1 m f j s ( x i j ) ⋅ η j s ) \sigma _i=\left( \sigma _i^1,\sigma _i^2,\cdots ,\sigma _i^s \right) =\left( \sum_{j=1}^m{f_j^1\left( x_{ij} \right) \cdot \eta _j^1,\sum_{j=1}^m{f_j^2\left( x_{ij} \right)}}\cdot \eta _j^2,\cdots ,\sum_{j=1}^m{f_j^s\left( x_{ij} \right)}\cdot \eta _j^s \right) σi=(σi1,σi2,,σis)=(j=1mfj1(xij)ηj1,j=1mfj2(xij)ηj2,,j=1mfjs(xij)ηjs)
得到聚类系数矩阵
Σ = ( σ i k ) = [ σ 1 1 σ 1 2 ⋯ σ 1 s σ 2 1 σ 2 2 ⋯ σ 2 s ⋮ ⋮ ⋱ ⋯ σ n 1 σ n 2 ⋯ σ n s ] \varSigma =\left( \sigma _i^k \right) =\left[ \begin{matrix} \sigma _1^1& \sigma _1^2& \cdots& \sigma _1^s\\ \sigma _2^1& \sigma _2^2& \cdots& \sigma _2^s\\ \vdots& \vdots& \ddots& \cdots\\ \sigma _n^1& \sigma _n^2& \cdots& \sigma _n^s\\ \end{matrix} \right] Σ=(σik)=σ11σ21σn1σ12σ22σn2σ1sσ2sσns

max ⁡ 1 ≤ k ≤ s { σ i k } = σ i k   ∗ \underset{1\le k\le s}{\max}\left\{ \sigma _i^k \right\} =\sigma _i^{k\ *} 1ksmax{σik}=σik  ,则称对象 i 属于灰类 k ∗ k^* k


2.3 白化权函数

最后,说一下,白话权函数

参考:《灰色系统教学中白化权函数的构造方法分析》——董奋义等

白化权函数的确定是灰色聚类评估过程中由定性分析到定量建模的关键环节,白化权函数是对灰数(灰类)内各元素取值的可能性大小的函数形式表达.

灰数的白化权函数,反映人们在主观上掌握该灰数的信息,白化权函数是用来描述一个灰数对其取值范围内不同数值的偏爱程度,一般来说,一个白化权函数是研究者根据已知信息设计的,没有固定的程式,但曲线的起点和终点一般应有其含义

白化权函数是研究者根据已知信息设计的,对一个灰数或灰类对其取值范围内不同数值的/偏爱程度的主观判断,并以定量描述的方式刻画各数据点隶属于该灰数或灰类的程度,必须明确的是,这种主观判断必须是对已知信息的客观反映为基础

确定灰类白化权函数一般借助图形,白化权函数的关键是各转折点的确定

三角白化权函数法:将指标的取值范围看作一个区间,按照评估要求所需划分的灰类数,将各个指标也相应地划分为各个区间,区间的划分由实际情况、行业规范、国家标准或定性分析得到

白化权函数主要根据实际问题的背景,并基于现有的一些规范,且以定性分析为主.不同的决策者对相同灰类给出的白化权函数经常会出现一定的差异

2.4 书中例子——三个经济区如何划分收入类别

在这里插入图片描述

设有三个经济区,三个聚类指标分别为种植业收入、畜牧业收入、工业收入。第 i 个经济区关于第 j 个指标的样本值 x i j ( i , j = 1 , 2 , 3 ) x_{ij}\left( i,j=1,2,3 \right) xij(i,j=1,2,3) 如矩阵A所示:

A = ( x i j ) = 一区 二区 三区 [ x 11 x 12 x 13 x 21 x 22 x 23 x 31 x 32 x 33 ] 指标1 指标2 指标 3 = [ 80 20 100 40 30 30 10 90 60 ] A=\left( x_{ij} \right) =\begin{array}{c} \text{一区}\\ \text{二区}\\ \text{三区}\\ \end{array}\overset{\text{指标1\ 指标2\ 指标}3}{\left[ \begin{matrix} x_{11}& x_{12}& x_{13}\\ x_{21}& x_{22}& x_{23}\\ x_{31}& x_{32}& x_{33}\\ \end{matrix} \right]}=\left[ \begin{matrix} 80& 20& 100\\ 40& 30& 30\\ 10& 90& 60\\ \end{matrix} \right] A=(xij)=一区二区三区x11x21x31x12x22x32x13x23x33指标指标指标3=8040102030901003060
试按高收入类(k=1)、中等收入类(k=2)、低收入类(k=3)进行聚类

解:
在这里插入图片描述

这个白化权函数的转折点事如何确定的?

我的理解如下(可能有问题):

第一个,指标1(80,40,10),最大值为80,最小值为10
对于 f 1 1 f_1^1 f11 ,即第 1 指标(种植业收入) 1 类(高收入类)的白化权函数

结合图形,上限测度白化权函数
f j k [ x j k ( 1 ) , x j k ( 2 ) , − , − ] f_j^k\left[ x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,-,- \right] fjk[xjk(1),xjk(2),,]

在这里插入图片描述

因为是高收入类,所以最大值 80 确定为 x 1 1 ( 2 ) x_1^1\left( 2 \right) x11(2),其次,高收入类的最小值也要适当大于10,所以主观确定30,也可以设为20,40…


对于 f 1 2 f_1^2 f12 即1指标 2 类(中等收入类)的白化权函数,结合图

适中测度白化权函数
f j k [ x j k ( 1 ) , x j k ( 2 ) , − , x j k ( 4 ) ] f_j^k\left[ x_j^k\left( 1 \right) ,x_j^k\left( 2 \right) ,-,x_j^k\left( 4 \right) \right] fjk[xjk(1),xjk(2),,xjk(4)]

在这里插入图片描述
因为是中等收入类,最小的 x 就可以确定为10( x 1 2 ( 1 ) x_1^2\left( 1 \right) x12(1));最大的 x ( x 1 2 ( 4 ) x_1^2\left( 4 \right) x12(4))主观确定在80,70,60都可以;中间的 x 1 2 ( 2 ) x_1^2\left( 2 \right) x12(2) 可以是10-70/60之间的一个数,可以是 30 ,40 都行。


对于 f 1 3 f_1^3 f13 即1指标 3 类(低收入类)的白化权函数,结合图

下限测度白化权函数
f j k [ − , − , x j k ( 3 ) , x j k ( 4 ) ] f_j^k\left[ -,-,x_j^k\left( 3 \right) ,x_j^k\left( 4 \right) \right] fjk[,,xjk(3),xjk(4)]
在这里插入图片描述

因为是低收入类,所以可以直接把 x 1 3 ( 3 ) x_1^3\left( 3 \right) x13(3) 设为指标 1 的最小值, x 1 3 ( 4 ) x_1^3\left( 4 \right) x13(4)不超过 f 1 2 f_1^2 f12 中的 x 1 2 ( 2 ) x_1^2\left( 2 \right) x12(2)


在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

下限测度白化权函数有:
λ j k = x j k ( 3 ) \lambda _j^k=x_j^k\left( 3 \right) λjk=xjk(3)

适中测度白化权函数有:
λ j k = x j k ( 2 ) \lambda _j^k=x_j^k\left( 2 \right) λjk=xjk(2)

上限测度白化权函数有:
λ j k = x j k ( 2 ) \lambda _j^k=x_j^k\left( 2 \right) λjk=xjk(2)

在这里插入图片描述


由 j 指标 k 子类的权为
η j k = λ j k ∑ j = 1 m λ j k \eta _j^k=\frac{\lambda _j^k}{\sum_{j=1}^m{\lambda _j^k}} ηjk=j=1mλjkλjk

在这里插入图片描述



σ j k = ∑ j = 1 m f j k ( x i j ) ⋅ η j k \sigma _j^k=\sum_{j=1}^m{f_j^k\left( x_{ij} \right) \cdot \eta _j^k} σjk=j=1mfjk(xij)ηjk

当 i = 1 ,有
在这里插入图片描述

在这里插入图片描述


得到聚类系数矩阵
Σ = ( σ i k ) = [ σ 1 1 σ 1 2 ⋯ σ 1 s σ 2 1 σ 2 2 ⋯ σ 2 s ⋮ ⋮ ⋱ ⋯ σ n 1 σ n 2 ⋯ σ n s ] \varSigma =\left( \sigma _i^k \right) =\left[ \begin{matrix} \sigma _1^1& \sigma _1^2& \cdots& \sigma _1^s\\ \sigma _2^1& \sigma _2^2& \cdots& \sigma _2^s\\ \vdots& \vdots& \ddots& \cdots\\ \sigma _n^1& \sigma _n^2& \cdots& \sigma _n^s\\ \end{matrix} \right] Σ=(σik)=σ11σ21σn1σ12σ22σn2σ1sσ2sσns

max ⁡ 1 ≤ k ≤ s { σ i k } = σ i k   ∗ \underset{1\le k\le s}{\max}\left\{ \sigma _i^k \right\} =\sigma _i^{k\ *} 1ksmax{σik}=σik  ,则称对象 i 属于灰类 k ∗ k^* k

最终
在这里插入图片描述

第一经济区和第三经济区属于高收入类,第二经济区属于低收入类。并且有聚类系数,第一经济区与第三经济区之间仍然存在差别,如果将收入在细分,比如高、中等偏高、中、中等偏低、低五个灰类,则可以得出不同的结果。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐