以下为《数据分析期末论文》的无排版文字预览,完整内容请下载
《数据分析》期末课程论文
姓名
学号
得分
李某某
***0424
摘 要
下文解决的是肿瘤的“良性”与“恶性”判别问题。现在是通过肿瘤是30项指标来判定肿瘤患者所患有的肿瘤是“良性”还是“恶性”,下文中通过运用描述统计分析模型对选取的6个指标进行分析,运用谱系聚类模型,距离判别分析模型,贝叶斯判别模型,k近邻判别模型以及主成分分析模型,对30项指标进行综合判定,分析,最终制定了一个科学的肿瘤判别方法,以便人们可以及早判断肿瘤的‘良’与‘恶’,便于防治。
对于问题(一):文中建立了描述统计分析模型。文中对数据进行分析并运用MATLAB软件求6组数据的均值,中位数,三均值,以及偏度与峰度。由均值,中位数,三均值可以对6组数据中每组数据中每个个体与样本中心的距离,进而对个体进行判别。偏度与峰度是用来对样本数据分布特征和正态分布特征进行比较的概念,利用偏度与峰度可以清晰的看出样本个体的走势与正态分布之间的距离。
对于问题(二):文中建立了谱系聚类模型。谱系聚类首先利用‘欧式距离法’求569x30个数据相互之间的距离。向量的长度为(n-1)n/2,其中n是样本的容量。对经过‘欧氏距离’处理过的数据进行‘重心距离法’创建谱系聚类树,对数据按照距离来为1,2两类。(注:“1”代表‘恶性’,“”代表‘良性’;下文中亦如此)
对于问题(三):此问题中将总体数据划分为2类,下文基于此建立了距离判别分析模型,贝叶斯判别模型,k近邻判别模型。三种模型分别都取总个体的前70%作为训练样本,剩余30%做为待检测样本。对于距离判别分析模型,分别计算每个类的分组的均值,其次对一个待判别的样品,计算其与每一类重心的距离,最后依据最小距离判别进行判别,若与第i类距离最小就是来自第i类。对于贝叶斯判别法,需要考虑每个总体出现的先验概率,本问题中有两个总体,设总体具有概率密度函数,再根据具体问题进行分析,下文中对此总体数据进行了聚具体描述。对于k近邻判别模型,假定有m个类别为w1,w2,..,wm的样本集合,标有类别的有个。有s个指标,样本点的指标构成一个s维特征空间。对任何一个待判别的样本x,将其放入s种,通过构造一个距离公式,就可以找到k个x的近邻。再根据具体问题情况进行划分分类。
对于问题(四):对于主成分分析模型,取自总体的样本观测数据,求其协学术矩阵方差矩阵S以及相关系数矩阵R,然后按总体主成分分析的方法对样本作主成分分析。
关键词:偏度与峰度 谱系聚类 距离判别法 贝叶斯判别法
k近邻判别法 主成分分析
一、问题重述
问题背景:
如今,癌症越来越多,发病率越来越高,不断威胁着人们的生命安全,据统计,全世界每年约有400万人被确诊癌症。癌症的死亡率很高,判断肿瘤的良与恶,就成为了一个预防癌病变的很有效的途径。
下面是某医院肿瘤患者的一组数据(具体见附录),这里的‘1’代表‘恶性’,‘2’代表‘良性’。
所要解决的问题如下:
问题一:描述统计分析:选择6个有代表性的指标进行分析.
问题二:基于除diagnosis以外的数据进行聚类分析
问题三:以diagnosis为分类标签,建立三种分类模型,随机选择70%作为训练样本,另外30%作为测试样本,并评估三种模型的效果。
问题四:基于除diagnosis以外的数据进行主成分分析。
问题假设
假设1:各指标对肿瘤的影响是相对独立的。
假设2:分析结果中的良性占比比恶性占比高。
假设3:分析结果与数据原本分类差距不大。
模型的建立
问题一:
模型一的建立
1.1数据描述性分析模型的建立
确定目标函数
在此问题中,选取了6个指标分别为:半径平均值,周长平均值,面积平均值,平滑程度平均值,紧密度平均值,凹度平均值。设从所研究的对象(即以上6组数据)X中观测得到的n个观测值x1,x2,..,xn(1),这n个值作为样本数据,n是样本容量。我们的任务就是要对样本数据进行分析,提取数据中所包含的有用信息,从而进一步对数据所在的总体的特性做出推断。在本问题中涉及到的模型类型有:均值,中位数,分位数,三均值,以及偏度与峰度。
式(1)的平均值称为样本均值,记作:
样本均值描述了数据取值的集中趋势。
将(1)式按从小到大的次序排列,排序为k的数记为x(k)(1请点击下方选择您需要的文档下载。
以上为《数据分析期末论文》的无排版文字预览,完整内容请下载
数据分析期末论文由用户“jiabing305”分享发布,转载请注明出处