欢迎光临散文网 会员登陆 & 注册

实验设计必看!科学分析中的解释变量和响应变量 | 英论阁Enago SCI/SSCI/EI论文润色

2023-03-17 10:29 作者:英论阁科研作者服务  | 我要投稿

无论对于概率性还是非概率性的问题,所有的科学分析在探索未知的过程中通常都需要建立参数之间的某种因果关系,即某个参数的变化导致另一个参数发生变化。这种参数(parameter)又称变量(variable)。本文将分析解释变量和响应变量,帮助您更好理解试验设计中的变量关系。



对于数学函数y=f(x),x称为自变量或独立自变量(independent variable),y称为因变量(dependent variable),这是因为x值的变化通过某种函数关系导致y的值发生变化。实际上,在自然科学和社会科学领域,大量的因果关系并不能用函数形式或某种数学显式形式表现出来,但在变量之间确实是仍然存在关联的。自变量又称为解释变量(explanatory variable)或预测变量(predictor variable)。因变量又称为响应变量(response variable)或结果变量(outcome variable)。所谓的解释变量,其含义为该变量的值的变化能够“解释”响应变量的值发生的变化。表达解释变量与响应变量之间关系的最简单方式是采用散点图(scatter plot),将解释变量放在横轴(x轴),而将响应变量放在纵轴(y轴),观察数据点的分布是否呈现某种明显的规律或相关性。


人们之所以经常采用“解释变量”而非“独立自变量”来称呼自变量的原因是虽然有些自变量是独立的,但有些自变量是非独立的(即存在某种依变关系)。例如,汉堡包和可乐的摄入量作为两个自变量,都可以影响体重,但是汉堡包和可乐之间在某些研究情况下是存在一定的依变关系而并不完全独立无关的。例如,购买了汉堡包的人习惯于再购买一瓶可乐。如果研究的目标参数(因变量)是体重,那么汉堡包和可乐的摄入量都是自变量。在这种情况下,将汉堡包和可乐都称为解释变量比称为独立自变量要更加合理和准确。但是,如果研究的目标参数改为可乐,那么问题的构造可以改变为:汉堡包是自变量,而可乐是因变量。简而言之,解释变量是原因,响应变量是结果


与解释变量之间的非独立关系(即依变关系)所不同的另一种关系是解释变量之间的相互作用(interaction)。如果响应变量相对于第一个解释变量的变化程度取决于第二个解释变量的取值,那么就称这两个解释变量之间存在相互作用。反之,如果无论第二个解释变量的取值如何,响应变量相对于第一个解释变量的变化程度都是一样的,那么就称这两个解释变量之间不存在相互作用。例如,某种化肥和某种添加剂都对农作物的产量有影响,而化肥和添加剂是互相独立的解释变量;当添加剂的用量是1千克时,将化肥的用量从10千克增加到20千克,导致农作物产量从1吨增加到1.2吨,即增加了0.2吨。然而,当添加剂的用量是2千克时,将化肥的用量仍然从10千克增加到20千克,却导致农作物产量从1.1吨猛增到1.7吨,即增加了0.6吨。这时,化肥用量和添加剂用量就称为具有相互作用。


研究这类参数之间依变关系的学科称为试验设计(Design of Experiments,简称DoE)。在试验设计中,解释变量被称为因子(factor),而响应变量被简单地称为响应(response)。试验设计包括单因子问题、多因子问题、单响应问题、多响应问题等。变量按照是否具有随机性质分为确定性(deterministic)变量和概率性(probabilistic)变量。确定性因子的离散取值称为水平值(level)。


如果因子与响应之间能够用具有物理意义的数学关系来描述,就称这种关系为物理模型,例如立方体的体积等于底面积乘以高度。如果因子与响应之间的关系极为复杂,以至于不能用具有物理意义的数学模型来描述,那么就需要采用数据拟合(又称回归)的方式建立某种关联,例如显式的多项式拟合模型或隐式的神经网络模型。多项式拟合模型称为拟合器(emulator)或响应曲面模型(response surface model)。


试验设计包括全析因设计部分析因设计。物理模型的建立是不需要试验设计的,因为物理模型是基于因子与响应之间的理论关系推导出来的。然而,响应曲面模型需要依靠试验设计来建立。当因子的数量为2或3,而且当因子的水平值是2或3时,由于因子的全部取值组合情形的数目不大,可以使用全析因设计。以3水平和3因子为例,因子记为x1、x2、x3,水平值假设为-1、0、1,那么因子的全部取值组合数目是27,即3′3′3=27,这就是全析因设计。实际上,在这27个因子取值组合中,有些组合可以舍去,从而不太影响因子对响应之作用的信息完整度,而试验次数则能够大幅度减少,例如从27次减少到13次,这就称为部分析因设计。部分析因设计的优势在因子或水平值数量众多的情况下变得非常明显和必要。常用的部分析因设计方法包括正交设计、传统设计、均匀设计、拉丁超立方(Latin Hypercube)设计。在评价多项式响应曲面模型的准确度和模型的每一项的重要性时,可以采用相关系数检验、方差分析、残差分析等方法。


利用因子和响应的数据建立起响应曲面模型后,可以通过计算来观察和预测因子对响应的影响趋势,而且通常需要寻优,即寻找在因子取值是多少时,响应参数的值达到最大或最小。因此,试验设计往往与优化联系在一起。在优化问题中,存在两类响应变量,一类称为目标响应,另一类称为约束响应。很多优化问题是带有等式或不等式约束条件的单目标优化或多目标优化问题。


综上所述,解释变量和响应变量分别对应试验设计中的因子和响应。响应曲面方法(Response Surface Method,简称RSM)是处理这些变量之间关系的主流分析方法。


更多精彩内容,请您持续关注英论阁

-END-


实验设计必看!科学分析中的解释变量和响应变量 | 英论阁Enago SCI/SSCI/EI论文润色的评论 (共 条)

分享到微博请遵守国家法律