以下为《《C4.5算法概述》》的无排版文字预览,完整内容请下载
目录
1 决策树算法 2
1.1 具体应用场景和意义 2
1.2 现状分析 3
2 C4.5算法对ID3算法的改进 4
3 C4.5算法描述 7
3.1 C4.5算法原理 7
3.2 算法框架 8
3.3 C4.5算法伪代码 9
4 实例分析 9
5 C4.5算法的优势与不足 12
5.1 C4.5算法的优势 12
5.2 C4.5算法的不足: 12
参考文献 12
C4.5算法综述
摘要
最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。
C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题,是目前应用最为广泛的归纳推理算法之一,在数据挖掘中收到研究者的广泛关注。
1 决策树算法
1.1具体应用场景和意义
决策树(Decision Tree)是用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练事例能够用属性即结论的方式表达出来,就能使用该算法进行学习。
决策树算法在很多方面都有应用,如决策树算法在医学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了广泛应用。
决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树的典型算法有ID3、C4.5和CART等,基于决策树的分类模型有如下几个特点:(1)决策树方法结构简单,便于理解;(2)决策树模型效率高,对训练集较大的情况较为适合;(3)决策树方法通常不需要接受训练集数据外的知识;(4)决策树方法具有较高的分类精确度。
在决策树算法中,最常用的、最经典的是C4.5算法,它在决策树算法中的主要优点是:形象直观。该算法通过两个步骤来建立决策树:树的生成阶段和树的剪枝阶段。该算法主要基于信息论中的熵理论。熵在系统学上是表示事物的无序度,是系统混乱程度的统计量。C4.5基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益率作为属性选择的度量标准,可以得出很容易理解的决策规则。
1.2 现状分析
决策树技术是迄今为止发展最为成熟的一种概念学习方法。它最早产生于二十世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统(CLS,Concept Le 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 59.
[2]李某某,胡某某. 决策树中ID3算法与C4.5算法分析与比较[J]. 水电能源科学,2008,02:129-132+163.
[3]黄某某. 决策树C4.5算法的改进及应用[J]. 科学技术与程,2009,01:34-36+42.
[4]李瑞,程某某. 一种改进的C4.5算法[J]. 科学技术与工程,2010,27:6670-6674. [8]廖某某,周某某.?AdaBoost及其改进算法综述[J].?计算机系统应用,2012,05:240-244.
[5]李某某,段某某,陈某某. 决策树C4.5算法在数据挖掘中的分析及其应用[J]. 计算机与现代化,2008,12:160-163.
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《《C4.5算法概述》》的无排版文字预览,完整内容请下载
《C4.5算法概述》由用户“赵朽年”分享发布,转载请注明出处