以下为《“华某某” 数学建模竞赛 降低汽油精制过程中的辛烷值损失模型》的无排版文字预览,完整内容请下载
中国研究生创新实践系列大赛
“华某某”第十七届中国研究生
数学建模竞赛
学 校
XX大学
参赛队号
***188
队员姓名
1.宋某某
2.胡某某
3.贾某某
中国研究生创新实践系列大赛
“华某某”第十七届中国研究生
数学建模竞赛
题 目 降低汽油精制过程中的辛烷值损失模型
摘 要:
辛烷值(以RON表示)是反映汽油燃烧性能的最重要指标,现有技术在对催化裂化汽油进行脱硫和降烯烃过程中,普遍降低了汽油辛烷值,而这意味着经济效益的损失。虽然传统化工的建模取得了一定的成果,但由于各种条件限制使得模型对过程优化的响应不及时。本文讨论了利用数据挖掘技术来解决化工过程建模问题,题目要求从催化裂化汽油精制装置采集的325个数据样本利用数据挖掘技术建立汽油辛烷值损失的预测模型。通过问题1对数据进行处理,以此为问题2 寻找建模的主要变量做准备,筛选出主要变量后根据问题3建立辛烷值损失预测模型,然后在问题4中根据模型对主要变量进行操作方案的优化,最终在问题5中将模型进行可视化展示。本文的主要成果如下:
首先,我们主要使用均值插值法对附件三中样本285和样本313的样本原始数据进行预处理。在对原始数据中存在的0值进行处理以后,再根据附件二中的“样本确定方法”对附件三进行处理。
其次,我们依次使用缺失值比率、低方差滤波、高相关滤波以及随机森林算法来通过降维的方式筛选主要变量。我们将缺失值比率设置为20%,从而将缺失数值较多的变量筛选掉。然后,我们利用低方差滤波剔除掉那些携带信息较少的变量,并有效解决了因度量单位不同而导致的一些问题。紧接着,我们通过高相关滤波以及随随机工程过滤掉相关性高于0.6的一组变量。最后通过随机森林对剩余变量进行不纯度排序,经过多重筛选,我们选取了13各较为合理的关键操作变量。
第三,为了建立更加准确的模型,我们分别尝试使用了四种算法。利用决策树,梯度提升决策树以及随机森林构建模型均产生了过度拟合问题,而且模型预测效果也不是很理想。而采用多元线性回归建模时则得到了很好的拟合效果以及预测性。由此我们建立的模型可以很好的满足相应量之间的函数关系,即:
其中代表汽油辛烷值预测值,代表表中的操作变量,代表各对应操作变量的回归系数。
第四,为了寻找辛烷值损失降幅大于30%的样本所对应的关键变量优化后的条件,我们将处理后的325个原始数据分别代入上述模型中并得到它们各自的预测值,利用辛烷值损失降幅公式计算出每个样本所对应的辛烷值损失降幅,并从325个预测数据样本中找出同时满足辛烷值损失降幅大于30%以及产品硫含量不大于5μg/g的样本,满足条件的样本即为我们所需要的优化样本,这些样本所对应的操作条件即为优化后的操作条件。
最后,为了可视化描述产品辛烷值的变动轨迹,我们首先利用模型得到了辛烷值预测值与样本初始值的拟合散点图,以此直观的展示该模型较好的拟合程度。然后,将133号样本中各操作变量同时以各自允许调整的幅度值进行调整得到了优化调整过程中对应的汽油辛烷值变动轨迹。
关键词:辛烷值损失;决策树;随机森林;多元线性回归
一、问题重述
1.1问题背景
汽油作为小型汽车的主要燃料,其燃烧产生的尾气容易造成大气污染,对大气环境具有重大影响。汽油燃烧的主要污染物来自汽油中的硫、烯烃含量,因此汽油清洁化的重点是降低汽油中的硫、烯烃含量并同时保持其辛烷值。我国原油高度依赖于含硫杂质高的重油,难以直接利用。因此为了有效利用重油资源,需要通过以催化裂化为核心的重油轻质化工艺技术,将重油转化为汽油、柴油和低碳烯烃,同时还要对催化裂化汽油进行精制处理,以满足对汽油质量要求。
辛烷值(以RON表示)是反映汽油燃烧性能的最重要指标,现有技术在对催化裂化汽油进行脱硫和降烯烃过程中,普遍降低了汽油辛烷值。辛烷值的降低造成了经济利益的巨大浪费,因此降低汽油精制处理中的辛烷值损失具有重大意义。尽管通过数据关联或机理建模来对化工过程进行建模取得了一定的成果,但是由于设备的多样性以及炼油工艺过程的复杂性,它们的操作变量(控制变量)之间具有高度非线性和相互强耦联的关系,而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高,对过程优化的响应不及时,所以效果并不理想。
1.2问题提出
根据已有数据,利用数据挖掘技术解决化工过程中的建模问题。本题要求建立辛烷值损失预测模型对每个样本的操作条件进行优化,使得汽油产品脱硫效果为产品含硫量不大于5μg/g的前提下,降低汽油辛烷值损失在在30%以上。主要解决问题如下:
1). 数据处理
参照近4年的工业数据(见附件一“325个数据样本数据.xlsx”)的预处理结果,根据“样本确定方法”(附件二)对285号和313号样本的原始数据进行预处理,并添加到“325个数据样本数据.xlsx”中。
2). 寻找建模主要变量
通过降维的方法,在7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量中发现并分析影响辛烷值损失模型的主要变量和因素,并说明主要变量的选取过程以及其合理性。
3). 建立辛烷值(RON)损失预测模型
采用上述样本和建模主要变量,通过数据挖掘技术建立辛烷值(RON)损失预测模型,并进行模型验证。
4). 主要变量操作方案的优化
在保证汽油产品含硫量不大于5μg/g的前提下,利用模型获得的数据样本中,指出辛烷值损失降幅大于30%的样本对应的主要变量优化后的操作条件。
5). 模型的可视化展示
根据附件四“354个操作变量信息.xlsx”逐步调整优化后的操作变量,并用图形展示133号样本(原料性质、待生吸附剂和再生吸附剂的性质数据保持不变,以样本中的数据为准)主要操作变量优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹。
三、 模型假设
假设1:交通事故发生前交通状况处于非拥挤状态;
假设2:不考虑交通事故发生路段车道变换对上游到达流量的影响;
假设3:交通流不受进出匝道交通的合流、分流及交织的影响;
假设4:假设视频的截取对数据采集没有影响。
四、 符号说明
:实际通行能力
:实际车流量的平均值
:实际通行能力的方差
: 事故持续时间
:上游车流量
:瓶颈点的通行能力
:车辆在事故点上游行驶的长度,
:车辆的排队长度,
:瓶颈段距路段起点的距离,
:临界排队时间
:上游车流密度
:瓶颈段车流密度
:自由流车速
:堵塞密度
:最大排队长度所对应的时刻
:最大排队长度
四、问题一的求解
4.1问题分析
本题要求将附件三中样本285和样本313的样本原始数据依照附件二“样本确定方法”进行预处理,再将处理过后的数据添加到附件一的325个数据样本数据中。由于附件三中的原始数据存在异常值等情况,如果不进行处理而直接加以利用的话,会存在较大的偏误,对后续建模造成一定的影响,对预测结果也会造成不准确的后果,因此需要对附件三中的原始数据进行数据清洗。通过观察发现,原始数据中某些变量的数值部分或全部为0。这些0值的存在对变量的平均值有重要影响,若不加以考虑也会影响数据的质量以及模型结果的准确性,因此为解决这个问题我们将数据清洗工作分为两步进行。首先我们先对原始数据中存在的0值进行处理,然后在第一步的基础上再根据附件二中的“样本确定方法”对附件三进行处理。
4.2对存在的0值的处理
根据实际代表的意义可以将0区分为真实的0值和虚假的0值,就本题而而言,真实的0值为某个变量的实际取值为0,而虚假的0则是指某个变量的取值在某时刻取0仅仅是因为测量仪器无法检测导致的。尽管数值上都为0,这两种0却代表着截然不同的意义,所以在这一步,我们的主要工作是识别附件三的原始数据中哪些是真实的0值哪些是虚假的0值。
五、问题二的求解
5.1问题分析
本题要求对建立降低辛烷值损失模型涉及的367个变量进行分析,筛选出不超过30个变量作为建模的主要变量并说明其合理性。由于涉及的变量多达三百多个,一方面,并不是所有变量都对模型具有解释作用,次要因素的加入意义不大,另一方面,在实际工作中,三百多个变量操作起来也十分不便。同时部分变量之间存在强耦联性,往往一个变量变化其他几个变量同步变化,这些变量同时存在于模型中,降低了单个变量对模型的解释能力,因此需要选出代表性变量作为模型的主要变量。一般通过降维的方式来达到筛选主要变量的目的。
5.2变量筛选
5.2.1缺失值比率(Missing Value Ratio)
对于一个数据集,我们首先要观察其缺失值情况,并且对不同程度的缺失情况进行不同的处理。对于缺失值较少的变量,针对不同情况我们对其分别进行补充,对于个别空值我们使用插值法对其进行补充,即采用前后两个样本的均值对其进行补充,而对于连续空值,我们采用去除空值后的所有样本均值对其进行补充;而对于缺失值较多的变量我们直接删除该变量。至于如何衡量变量缺失值是否较多,我们采用缺失值比率(即缺失值占总体样本的比率)这一指标来判断。当某个缺失值比率高于某一阈值时,我们就删除这个变量,而对低于该阈值的变量的缺失值进行补充。根据经验,本文将缺失值比率设置为20%,结果如图5-1所示。
5.2.2低方差滤波(Low Variance Filter)
在对数据降维时,应当充分考虑数据携带的信息,对于携带信息多的数据我们要保留,而对于携带信息少的数据我们要剔除。一般认为,在高斯分布的情况下,数据的方差与数据所携带的信息成正比,即数据的方差越大,数据所携带的信息越多,相反,数据的方差越小其携带的信息也就越少。因此我们可以根据不同变量的方差大小判断其携带的信息的多寡,从而剔除那些携带信息较少的变量,达到降低数据维度的目的。为解决变量基本度量单位不一致的问题,在对所有变量进行低方差滤波处理时需要对其进行归一化处理。所谓归一化是指归纳统一样本的统计性分布,使得概率分布在0-1之间,坐标分布在-1-1之间,有效解决了因度量单位不同导致的问题。
(5-1)
(5-2)
根据式5-1将每一个变量进行归一化处理,并根据式5-2计算出经过归一化处理后的各个变量的方差,再通过设定方差过滤阈值(本文中设置为0.16,为确保原料变量均包含在模型中)剔除方差低于设定值的变量。
5.2.3高相关滤波(High Correlation Filter)
高相关滤波认为当两列数据的变化趋势相似时,他们所包含的信息也是相似的。当模型包含多个相似信息会对模型的准确性造成干扰,可以通过计算不同变量之间的相关系数来判断不同变量之间存在的相关性。在计算相关系数之前,同样要对数据进行归一化处理,由于上一步已经进行过归一化处理,此处不再重复处理。通常两个变量之间的相关系数的绝对值为大于0.5可以认为这两个变量之间存在高相关性。因此本文将判断高相关性的阈值设置为0.6。对于具有高相关性的一组变量,我们通过随机选择和工程技术经验两种方式分别保留其中一个变量作为该组变量的代表性变量。根据上述筛选标准,最终选择图5-2中的61个操作变量作为保留的变量进行下一步的筛选。
5.2.4随机森林(Random Forest)
在对原始数据进行高相关滤波处理以后,我们得到了余下的60个操作变量,虽然这些操作变量之间已经不具有高度的相关性,但不排除他们之间仍然具有一定的关联性。为了进一步筛选出对模型更加有用的关键变量,我们紧接着对余下的60个操作变量进行了随机森林算法处理。随机森林以决策树分析为基础,可以保证采样和特征选取的差异性,这种随机性的引入使得随机森林可以更好地避免过拟合的问题。此外,随机森林可以利用多个决策树来对数据进行判别和分类,而在分类的同时可以评估出各个变量的重要性,这就为我们选择关键变量提供了便利。我们依据不纯度对选取的特征进行排序,当一个特征被选取后,与其相关联的其他特征的重要性将会变得很低,原因在于这些特征可以减少的不纯度已经被我们选取的特征所排除了。在对特征进行排序以后,通过计算整个森林的均值来决定最终的预测结果。由此,经过多重筛选,我们得出13个较为合理的关键操作变量,如表所示,其中图为13个关键操作变量的部分结果。
表 13个关键操作变量
S-ZORB.TC_2607.PV
S-ZORB.PT_9402.PV
S-ZORB.PDT_1003.DACA
S-ZORB.TE_9002.DACA
S-ZORB.TE_5202.PV
S-ZORB.TE_5101.DACA
S-ZORB.TE_2608.DACA
S-ZORB.TE_2501.DACA
S-ZORB.TE_2103.PV
S-ZORB.TE_1501.DACA
S-ZORB.TE_1203.PV
S-ZORB.PT_7502.DACA
S-ZORB.PT_1604.DACA
图 随机森林部分结果
六、问题三的求解
6.1 问题分析
本题目标为采用上述样本以及选取的主要操作变量,通过数据挖掘技术建立S Zorb装置产品辛烷值损失预测模型并验证模型准确性。面对复杂的数据,我们首先要对数据进行处理从而筛选出重要的操作变量,并利用这些操作变量建立合理的模型才能更好地对数据进行预测。模型建立的方法有很多,为增强数据预测准确性,我们考虑采取四种方法来对数据进行建模,以期增强数据预测性。
6.2 模型建立
6.2.1 决策树
决策树是一种监督学习算法,它主要适用于分类以及预测变量。它对类的划分非常类似于一颗树的结构,通过对变量进行选择来完成树的构建。在机器学习中,决策树可以通过一系列规则来对数据进行分类,根据数据类型的不同,可以分为处理离散型数据的分类决策树以及处理连续型数据的回归决策树。由于它不需要任何的先验假设,并且有着较快的计算速度以及较好的结果预测性,我们首先尝试利用分类决策树来对样本中的离散型数据进行建模。
我们首先导入pandas用于数据分析,然后输入处理后的样本数据进行样本分割以及特征选择,并随机进行训练测试集的划分。在划分过程中,我们将整个处理后样本的75%作为训练集,其余25%作为测试集。紧接着我们进行特征转换,并对预测数据进行同样的特征转换。完成以上步骤以后,我们导入分类决策树模型并对测试特征数据进行预测,输出结果显示通过决策树模型计算得出的模型拟合准确性为1,而预测准确性则为0.7439,如图所示:
发现决策树模型出现了过拟合问题,这可能是由于算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,从而使得决策树的树叶节点都是“纯”的。这样会使得该决策树对训练样本的误差率极低,但对测试样本的模拟效果并不是很理想。为了进一步提高测试精度,我们接下来使用梯度提升决策树再次对样本进行建模。
6.2.2梯度提升决策树
梯度提升决策树是一种迭代的决策树算法,该算法由多个决策树共同构成,全部决策树的结果汇总起来作为最终结果。与一般决策树相比,该算法利用最速下降的近似方法,即利用损失函数的负梯度在当前模型的值,作为回归问题中提升树算法的残差的近似值,从而更好地拟合一个回归树。梯度提升决策树不仅继承了决策树可解释性强以及预测速度快等优点,而且可以处理决策树算法的过拟合问题。梯度提升决策树通过抑制决策树的复杂性,降低单个决策树的拟合能力来解决过拟合问题,同时也可以提高模型的预测性能。
我们对数据进行与决策树算法相同的分割标准,运行后得到如图所示的结果,
我们发现对该数据进行模拟后依然没有解决模型的过拟合问题,不过数据预测的精确性有所提高,但这并不是我们所期望的结果,于是我们尝试使用随机森林以期建立更优的模型。
6.2.3 随机森林
正如前文所述,随机森林以决策树分析为基础,可以保证采样和特征选取的差异性,这种随机性的引入使得随机森林可以更好地避免过拟合的问题。此外,相对于决策树,随机森林可以降低异常值所带来的影响,这是由于随机森林只利用部分数据建立了多个决策树,这样多个决策树的综合结果就可以降低个别决策树由于异常值的影响而导致的预测失误。利用样本数据进行随机森林建模,同样将样本的75%作为训练样本,其余25%作为测试样本,得到的运行结果如图所示:
结果显示,利用随机森林建模同样出现了过拟合问题,这也许是由于数据集噪声较大而导致的,同时发现其测试结果也不是很理想。
以上三种算法均以树为基本思想,但都出现了过拟合问题,同时模拟准确性也不是非常理想。此时为了对数据进行更好的建模,只有另想出路,我们想到可以利用机器学习进行线性回归。
6.2.4 线性回归
线性回归通过将自变量与因变量之间的最优线性关系拟合出来,由此进行目标变量的预测。在机器学习中,通过输入给定的样本集,利用函数将该样本集进行拟合,使得样本集与拟合函数之间具有最小的误差,其核心思想即为最小二乘法。所谓最小二乘法,是指通过最小化误差项的平方和寻找数据之间最优的函数匹配,它是一种数学优化技术,可以用于曲线的拟合,而这正是我们对数据建模所需要的。
线性回归包括一元线性回归与多元线性回归,与一元线性回归只包含一个自变量不同,多元线性回归具有多个自变量,通过拟合最佳线性关系来预测因变量。多元线性回归的一般公式为:
其中自变量之间必须相互独立,代表回归系数,代表截距项,ε代表均值为0的随机误差项。我们在输入样本数据以后,利用机器学习对其进行多元线性回归,得到如表所示的回归系数
紧接着我们得到了该回归模型的测试结果,如图所示:
从该结果可以看出,线性回归得到了较高的拟合度并且避免了过度拟合的问题,此外其预测准确性也非常的理想。由此,当我们将四种算法的结果进行比较后,如图所示,选择利用多元线性回归作为最终的模型。
结合问题二中选择的关键操作变量,我们整理出如表所示的模型主要变量
变量名称
S, wt%(再生吸附剂性质)
S, wt%(待生吸附剂性质)
S-ZORB.PDT_1003.DACA
S-ZORB.PT_1604.DACA
S-ZORB.PT_7502.DACA
S-ZORB.PT_9402.PV
S-ZORB.TC_2607.PV
S-ZORB.TE_1203.PV
0.0345
-0.0197
0.0046
0.7643
-0.0408
1.1519
0.0006
0.0112
变量名称
S-ZORB.TE_1501.DACA
S-ZORB.TE_2103.PV
S-ZORB.TE_2501.DACA
S-ZORB.TE_2608.DACA
S-ZORB.TE_5101.DACA
S-ZORB.TE_5202.PV
S-ZORB.TE_9002.DACA
密度(20℃),kg/m3
0.0683
-0.0140
-0.0003
-0.0003
-0.0025
-0.0250
0.0020 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 要的操作条件以保证生产的平稳运行。如果直接运用公式化模型对主要操作变量的优化调整进行展示,那么该操作难度将会非常大,这是由于人类对于复杂信息的理解能力是有限的。我们已经建立的模型只是对抽象的数据进行了公式化表达,并不能直观地将有效信息直接展示给我们,这时候往往需要将数据可视化为具体的视图才能使我们对数据有更加清晰的认识。
问题解决
为了进行可视化建模,首先我们模拟出预测数据与原始数据的拟合程度,以更直观理解我们的模型,其散点图如下所示
图 产品预测值与原始值拟合散点图
其中横坐标为原始数据中各个样本的产品辛烷值,纵坐标为利用线性回归模型预测得到的产品辛烷值,可以直观发现预测值与原始值的拟合程度较好。
其次,根据模型,变量变动一单位将导致产品辛烷值变动个单位。在保持133号样本中原料性质、待生吸附剂和再生吸附剂性质数据不变的情况下,同时将各主要操作变量每次以各自允许调整的幅度值进行调整,此时产品辛烷值将变动个单位,由此主要操作变量优化调整过程中对应的汽油辛烷值的变化轨迹如图红色轨迹所示,当对所有的取绝对值以后,其变动如图蓝色轨迹所示。
图 产品辛烷值变动轨迹
[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《“华某某” 数学建模竞赛 降低汽油精制过程中的辛烷值损失模型》的无排版文字预览,完整内容请下载
“华某某” 数学建模竞赛 降低汽油精制过程中的辛烷值损失模型由用户“whai5852829”分享发布,转载请注明出处