模糊聚类案例分析
发布时间:2020-05-23 19:48:43
发布时间:2020-05-23 19:48:43
模糊数学方法及其应用
论文题目: 模糊聚类方法案例分析
小组成员:
王季光 宋申辉 兰洁
倩芸 肖仑 洋
吴云峰
2013年 10 月 27 日
模糊聚类分析方法
1.1距离和相似系数
为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。
由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:
间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。
有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。
名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。
不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。
设有
其中
1.2 F相似关系
1.2.1定义
设
当论域
1.2.2 定理
若
若
若
若满足上面三点则称为等价矩阵。
定理1:相似矩阵
证 只需要证明
因
因为
有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。
定理2:设
证 由
当
1.3 聚类分析
所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。
模糊聚类分析的步骤:
第一步:数据标准化
数据矩阵
设论域为被分类的对象,每个对象由m个指标表示其性状,
即
于是得到原始数据矩阵为
数据标准化
在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。
通常需要作如下集中变换。
1)平移标准差变换
2)平移极差变换
3)对数变换
第二步 标定(建立模糊相似矩阵)
设
现在的问题是如何建立
(1)形似系数法
数量积法
其中M为一适当选择之正数,满足
夹角余弦法
相关系数法
其中
最大最小法
算术平均最小法
几何平均最小法
绝对值指数法
绝对值减数法
其中,
(2)距离法
1)直接距离法
海明距离
欧几里得距离
切比雪夫距离
2)倒数距离法
3)指数距离法
选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种方法,选取分类最符合实际的结果。
第三步 聚类(求动态聚类图)。
由第一步得到的矩阵
实际应用
具体问题如下:
标准差变换下——夹角余弦法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:
标准差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:
极差变换下——夹角余弦构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:
极差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下: