以下为《一种面向高维数据的特征选择方法》的无排版文字预览,完整内容请下载
一种面向高维数据的特征选择方法
本发明涉及一种特征选择方法,尤其是能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。
特征选择对于高维数据的分类问题至关重要,它是从一组特征中挑选出一些最为重要的特征以降低特征空间的维数。特征选择结果的好坏直接影响分类结果的准确率。
特征选择一般为:特征子集搜索过程、特征子集评价方法、特征子集搜索停止准则和特征子集有效性验证这四个步骤。
常用的特征选择方法包含filter、wrapper和embedded等。Filter方法可以实现快速的特征选择,但是很难获得较高的准确率;wrapper方法可以获得较高的准确率,但是计算代价大,不易于推广。Embedded方法基于分类算法对特征进行评分,然后实现特征选择,但是特征的维度不能很好的确定。
一种面向高维数据的特征选择方法,涉及一种特征选择方法。提供能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。具体步骤:1 )特征的稳定性评分;2)特征子集的选择;3 )特征子集的评价;4 )特征子集有效性的验证,具体方法如下:对于选出的特征子集,通过不同的分类器进行验证,说明所选的特征子集在不同分类器上具有的泛化性和代表性,进而说明特征选择方法的有效性。提出了一种新的面向高维数据的 特 征 选 择 方 法 ,通 过 结 合 w r a p p e r 和embedded的思想,能够获得较优的特征子集。结合贪心策略,可以自定义搜索的步长,能够较好地确定特征维度,并及时终止特征选择过程。
/
1 .一种面向高维数据的特征选择方法,其特征在于包括以下步骤:
特征的稳定性评分;
所述特征的稳定性评分的具体方法为:所述特征的稳定性评分的具体方法可为 :采用稳定选择方法(Randomized Logistic Regression,RLR)通过对数据集进行多次的子采样,获得多个子集;在每个子集上通过随机的添加正则化项,对数据集的特征进行评分;然后再将多次评分综合在一起获得数据集特征的一个稳定性评分。
Randomized Logistic Regression(RLR)是一种稳定性选择技术,通过多次抽样计算能对数据集的特征有稳定性的评分。本发明只需对数据集进行一次评分计算,就可以获得特征的评分,后续不需要对特征进行重复的评价。然后就可以根据特征之间不同的评分进行特征子集的搜索。具体的特征评分结果如图2,其含义是特征对应的评分越高,该特征的重要性越强。
/
在LINCS[13]计划公布的数据集中,VCAP细胞系具有较高维度的表达谱数据,使用RLR算法对该细胞系的数据集的1956维特征进行评分,每个特征的评分如图2所示。通过图2可以发现每个特征的重要性并不相同,特征之间存在差异,比如一部分特征的得分极低,这表明并不是所有特征都是非常重要的。
特征子集的选择;
所述特征子集的选择的具体方法为:利用稳定选择方法通过一次计算获得数据集特征的一个稳定性评分,然后在对特征的重要性进行降序排序,根据贪心策略中的后向序列选择思想;每次从特征集中选出一个特征子集。
不同的特征具有不同的评分,特征之间的评分存在差异性。将特征的重要性按照评分高低进行降序排序。然后从排好序的特征集中不断地剔除一部分评分较低的特征,即可选出一个特征子集。
根据贪心策略中的后向序列选择思想,将特征的重要性按照评分高低进行降序排序,每次以10个特征为单位,从数据的特征集剔除评分最低的10个特征,构造出一个较优的特征子集。
特征子集的评价;
所述特征子集的评价的具体方法可为:对选择出的特征子集 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 er方法通过重复的训练分类器,对特征集进行评分,可以很好地确定需要保留的特征维度。本发明借鉴这个思想,结合后续序列选择方法,以QDA为分类器,重复地进行特征子集的选择和评价操作,省去了不断的特征评估这个过程可以实现快速的特征选择过程,获得较好的特征子集。
本发明的突出技术效果在于:1 .提出了一种新的面向高维数据的特征选择方法,通过结合wrapper和embedded的思想,能够获得较优的特征子集。2 .结合贪心策略,可以自定义搜索的步长,能够较好地确定特征维度,并及时终止特征选择过程。
具体实施方式以下实施例将结合附图对本发明作进一步的说明。
特征选择后,分类器性能没有降低。
/
/
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《一种面向高维数据的特征选择方法》的无排版文字预览,完整内容请下载
一种面向高维数据的特征选择方法由用户“zhenzhengdeyu”分享发布,转载请注明出处