CUMCM2021-B007
题目类型与评价
多因素回归分析的典范。
值得学习的点: - 多元回归模型和偏最小二乘回归分析的对比建模 - 方差分析并加入交互项提升对某因素的敏感度 - 均匀设计结合实际 # 摘要 论文的摘要部分对关键词进行了加重,突出了使用的模型方法与其作用意义;每个问题分段,但每问之间的叙述有逻辑性。 ## 关键词 多元回归模型,偏最小二乘回归分析,最优化,方差分析,均匀设计 ## 摘录 - 引入方差分析探究多自变量之间的交互作用 # 问题提出 ## 背景分析 ## 问题重述 # 问题分析 每一小问在重复问题的基础上分小标题阐述 ## 问题一: 关系分析类问题,首先皮尔逊相关性分析,然后绘制折线图,同时非线性和线性拟合,确定函数关系(二次函数);第二部分确定两个指标为与时间有关的变量,同时对无关产物聚类。 ## 问题二: 对不同组合催化剂、温度、以及生成物的比率设置赋予变量值,进行多元线性回归;为了验证因变量之间也存在影响,进行偏最小二乘的回归分析。对比选择回归方程。 ### 摘录 - 得到的回归方程就可以作为〇〇对指标的量化分析。 ## 问题三: 根据C4烯烃的计算式,因约束条件不充分,无法求解最优值;对多自变量进行方差分析,得到了温度与Co负载量以及乙醇浓度的组合交互时对因变量也产生一定的影响。将其作为注意力自变量加入自变量中,SPSS拟合。 ## 问题四: 均匀设计实验法。依据问题二剔除相关性低的自变量,根据安全原则剔除危险组合,并以问题三的最后结果代替 # 模型假设 # 符号说明 # 模型建立 ## 问题一的求解与分析 简要说明解题逻辑和使用方法,可以不写出数据与分析结果。 ### 数据预处理 分类;然后给出代表性的图片;写出分类依据 ### 问题一(1)的模型建立与求解 首先画出流程图。 #### 相关性分析 本文首先通过计算皮尔逊相关系数,求得……
公式要标出x和y在题目中的含义。
21组数据中有19组的Pearson相关系数大于0.9,……,极强相关性。
列表说明 #### 非线性回归 强相关性+正相关趋势,所以采用非线性回归方式拟合。分别利用线性方程,S型曲线,二次曲线进行你和,以催化剂分组,得到21张拟合图像
展示两幅并说明R方相差不大 #### 相关性检验 对比选择R方较大者 ### 问题一(2)的模型建立与求解 #### 数据预处理 考虑到变量冗余,可以将相关性高的分为一类,对……进行降维处理。
分析系谱图可以发现,我们可以将……作为次要附加产物,将……作为主要附加产物,从而实现数据的降维。因此在……中,我们只需要考虑两类生成物对……的影响即可
可视化时间对乙醇转化率,C4烯烃选择性,主要附加产物,次要附加产物,收率影响。并分析趋势。
SPSS拟合并分析 ## 问题二的求解与分析 流程图(这个图画的好好) ### 数据预处理 将装料比拆分为两个质量,得到5个自变量。
说明并舍弃石英砂这组变量。
列表说明因变量和自变量的选择。 ### 模型建立和误差分析 对两个指标分别进行方差齐次检验,列表说明。均大于0.05即认为是其次的。因此进一步进行单因素方差分析,得到单因素方差分析表:
主体间效应检验
说明各自变量贡献……因此我们可以进行回归分析模型的建立。 ### 建立多元回归模型 方程说明,偏回归系数……,与x1……无相关性,随机误差项。 #### 求解回归系数分析 #### 误差分析 0.796和0.709的R方可以算好的了?
残差统计表,并画出P-P图
由表……的残差分布图,残差最大值均在25左右,且标准化残差都集中分布在直线附近,可以认为标准化残差满足正态分布,误差通过,建立的回归方程合理且误差较小。 ### 偏最小二乘法回归模型(主成分分析? 上文利用……分别建立了……的多元线性回归模型,而在……背景下的多因变量问题中,因变量之间很有可能产生相互影响,针对本题……的因变量,我们通过偏最小二乘法来改进原有的分析方法,探究多因变量的分析,在原有的基础上探究因变量之间是否存在影响。
数据标准化
求相关系数矩阵
列出矩阵,并解释分析 ## 模型解释 预测图和直方图
对各个变量的解释能力进行说明 ## 问题三的求解与分析 为了……(题目重述)我们首先根据化学反应得出直接因素,又基于问题二的结论得出自变量之间的影响关系,建立单目标优化模型;对多个自变量进行方差分析,对原有模型进行改进从而在两种温度条件下进行全局最优的求解,以获得……
流程图
模型建立
数据处理
对109组C4烯烃收率进行排序,确定阈值为1%,筛选;对一些效果不佳的数据进行剔除 #### 约束条件的确立 自变量x的左右区间 #### 基于多元线性回归的模型优化 参照问题二,SPSS对收率进行数据拟合
R方大于0.7,很高!
求解。 #### 优化机理分析(重点) 根据问题二的方差分析,得知交互项的作用。将交互作用部分作为相互作用因子,令……x6,x7,x8,再用SPSS拟合 (目的为增强温度的影响)
Case1:在相同实验条件下……
Case2:在温度限制的条件下…… ## 问题四的求解与分析 为了(实验目的),本文在实验设计时选择均匀设计的方法。
相比于正交设计,均匀设计……
参考前面的问题,将回归系数接近0的自变量x4删除,在设计时着重研究其他4种自变量与C4烯烃收率的关系。
选取五种因素水平,观察各自变量的系数,系数大的步进小(温度),系数小的步进大。
删除最高水平组,防止化学反应过于剧烈,改为问题三的结果(注意与前实验重复的数据要对调)
灵敏度分析
模型的评价与推广
优点
- 方差分析将有助于探究自变量之间的相互作用,从而探究更深层次自变量之间的联系,以此将存在相互作用关系的每一组变量存为新的一个变量,反过来作为多元函数中的一员,提供更好的拟合效果。
- 偏最小二乘法和多元线性回归两者相结合进行对比分析,可以探究多个因变量之间是否存在着更深层次的联系,更有利于……的数据拟合,使其得到更为准确的拟合方程,探究实验物之间的联系,对实验结果进行预测。 ### 缺点
- 基于多元线性回归于方差分析的……模型中,各个组成部分的权重的确定仍然是按照变量贡献率特点进行分析,并无一个完整的体系,含有一定的主观性。
- 在聚类分析时,只是单纯的量化考虑了数值上的聚类,而忽略了…… ### 推广