回归分析与回归方程
一、 回归与相关
1、经济变量间的依存关系:通过第一章的学习,我们已经知道了计量经济学研究的中心问题就是各种经济变量之间的相互依存关系。而现实经济中各种经济变量之间的相互关系可以分为两类:
(1)确定性关系:函数关系 Y=f(X) 当一个或若干个经济变量X取一定数值时,另一个变量Y一定会有确定的值与之相对应的。例如当价格不变时,销售额Y与销售量X之间的关系等。
(2)不确定性关系:相关关系。当一个或若干个经济变量X取一定数值时,与之相对应的另一个变量Y值不确定,但按某种规律在一定范围内变化。例如,上一章的例子中,居民消费支出Y与可支配收入X之间就是这种关系。不是说收入一定,消费支出就一定,因为还有其他别的因素在影响着消费支出,但是,会呈现出居民消费支出随可支配收入增加而增长的规律性变动趋势。我们可以表示为Y=f(X,u),其中u为随机变量。
2、相关关系◆对相关关系最直观的描述方式是坐标图—散布图(P15)
现在,我们假设把每个班女生的数量与得胃病的人数作为两个变量,通过散布图来看它们之间的关系,有可能会得出两者数字之间有相关关系的结果,但我们是不是可以得出女生更容易患胃病的结论呢?
相关关系≠因果关系
P16图2.2
假设我们研究个人消费支出对个人可支配收入的依存关系,对应于各种个人可支配收入,个人消费支出虽不确定,但总会在一定的范围内变动。而且,平均说来,个人消费支出总是随着收入水平的增加而上升的。
回归分析就是要根据对个人消费支出与可支配收入的观测数据,确定当解释变量可支配收入确定时,应变量个人消费支出平均水平的变动轨迹——回归线,这种变动规律若用一定的函数形式表示出来,这个函数就是回归函数。
几个概念: Y的条件分布:当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。
在计量经济学中,通常是就参数而言来判断是否线性回归模型。
3、引入随机扰动项的原因:
随机扰动项包含着丰富的内容,在计量经济研究中起着重要的作用,随机扰动项的性质决定着计量经济方法的选择和使用。
前面已经提到了,由于通常总体包含的单位数非常多,我们无法去掌握总体所有单位的全部取值,因此,实际的经济研究中总体回归函数通常是未知的。那我们所能做到的只是对应于确定的解释变量X,对应变量Y的一些样本进行观测。因此,
P21例子和图2.4
第二节 简单线性回归模型的最小二乘估计正如经济学中的很多问题都是在假定完全竞争条件下来讨论一样,用样本去估计总体回归函数,除了样本以外,同样也需要一些假定前提条件,因为,只有具备了这些基本假定,所作出的估计才具有较好的统计性质。
用于估计简单线性回归模型中参数的方法有若干种,我们这里以及以后所说的基本假定都是针对最小二乘法的。也就是说,如果模型满足这些假定,最小二乘法就是一种适用的估计方法,否则最小二乘法就不再适用,而要发展其他方法来估计。
表示在Xi已知的条件下,随机误差项可以取不同的值,有些大于零,有些小于零,如果考虑所有可能的值,他们的平均值等于零。
假定3:无自相关假定: 随机扰动项μi的逐次值互不相关
Cov(μi , μj )=0 (i≠j)
假定4:随机扰动项μi 与解释变量Xi 不相关。
Cov(μi ,Xi )=0
由这些估计式,可以直接用样本观测值求得参数的点估计值。书P34页,用手工计算,进行参数估计。
那么,用OLS法估计的参数是否可靠,是否满足计量经济研究的要求呢?我们用第一章所讲的三条参数估计准则来判别它:
通过一系列的数学证明推导,鉴于你们的特点,我们把过程省略,唯一需要提的一点是(有人曾问过我,判别无偏性时,用到了真实值,但是真实值并不知道,又怎么判别呢?的确,在具体的问题上,真实值虽然存在,但未知,否则也不需要我们去分析了。但在理论的逻辑分析中,我们知道真实值存在,且等于估计值加上ui,而且,我们又假定了E(ui)=0,这样,在证明OLS估计式是否符合无偏性时,我们虽然不知道真实值具体等于多少,但我们利用期望计算的一些性质,仍然可以证明它具有无偏性。)
通过证明,最后得出结论,在古典假定条件下,OLS估计式β1∧和β2∧ 是参数β1和β2的最佳无偏线性估计式(BLUE),这一结论又称为高斯——马尔科夫定理。
我们知道,寻求最佳线性无偏估计式是计量经济学努力实现的目标,通过上面的结论,我们知道了OLS估计的最小方差性和无偏性,结合起来,使得按同样的置信度,OLS估计量的置信区间最小,最集中于真实值周围。这就是OLS估计法能得到广泛应用的重要原因。
第三节、简单线性回归模型的统计检验
根据“四步十二点”,我们完成模型的设立与参数的估计后,就进入了模型检验步骤。
因为计量经济模型是应用数理统计方法建立的,它必须满足数学理论与方法上的要求,所以,在模型参数估计后,首先我们要检验模型的经济内涵,参数的符号和大小是否满足经济理论和实践。然后,我们要来检验它是否满足数学理论与方法的要求。这就是模型的统计检验。统计检验包括三部分:拟合优度检验、变量的显著性检验和方程的显著性检验。
一、 拟合优度检验:检验模型对样本观测值的拟合程度。
既然采用了最小二乘估计方法,已经保证了模型最好地拟合样本观测值,为什么还要检验拟合优度呢?
最小二乘法所保证的最好拟合,是同一个问题的内部比较,即在一个模型既定的情况下,用最小二乘法估计比用其他方法能更好地拟合,但是,在一个特定的条件下做的最好的并不一定就是高质量的。拟合优度检验结果所表示的优劣是对所研究问题采用不同模型形式之间的比较。
基本思想:从量化的角度,进一步测度采用最小二乘法原则时,Σei2究竟有多小。
拟合优度的度量建立在对总离差分解的基础上进行的。
Y
总离差, 即yi=Yi-Y,可以分为两部分:估计值与平均值的差,它是由样本回归线解释了的部分;观测值与估计值的差,即残差,不能由样本回归线解释的部分。考虑到偏离的正负,我们把这三部分都用平方和来表示:
TSS(总离差平方和、总变差平方和、总体平方和):反映样本观测值总体离差的大小;
ESS(回归平方和):反映由模型解释了的那部分离差的大小;
RSS(残差平方和):反映样本观测值与估计值偏离的大小,也是模型未解释的那部分离差大小。
可以通过证明:TSS=ESS+RSS
2、可决系数r2
从上面的分析可以知道,由样本回归线解释了的部分越大,残差平方和越小,样本回归线与样本观测值拟合优度就越好。为了建立一个便于不同模型之间比较的标准,我们选择构建一个相对量作为判别模型拟合优度的指标
可决系数:回归平方和在总离差平方和中所占的比重。r2
r2=ESS/TSS=1-RSS/TSS
可决系数越高,说明在总离差中由模型作出了解释的部分占比重越大,模型的拟合优度越高;
可决系数越低,说明在总离差中由模型作出了解释的部分占比重越小,模型的拟合优度越差。
由上式可以看出, r2的取值范围在0和1之间。当 r2=0,意味着回归线与观测值之间没有任何关系;当 r2=1时,模型与样本观测值完全拟合。可决系数越靠近1,越好。
可决系数到底达到多大才算通过检验,没有绝对的标准,视具体情况而定。拟合优度不是判别模型质量的唯一标准。可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)
二、 变量显著性检验(t检验)
目的:检验每个解释变量是否对被解释变量的影响都是显著的,以考察变量设定是否合理。
1、假设检验的基本思想:在某种原假设成立的条件下(H0),利用适当的统计量和给定的显著性水平α,构造一个小概率事件,可以认为小概率事件在一次观测中基本不会发生。如果该事件居然发生了,则认为原假设不真,从而拒绝原假设,接受被择假设(H1)。这个小概率具体小到什么程度,就是我们给出的显著性水平。
2、具体做法:
(1) 构造零假设和被择假设:H0:β2=0(即假设该变量不显著),H1:β2≠0
(2) 构造统计量:t=β^/Se^
(3) 按给定的显著水平,查表得临界值tα/2(n-k-1).n代表样本容量
(4) 当-tα/2(n-k-1)≤t≤tα/2(n-k-1)时,接受H0:β2=0,即认为解释变量对应变量没有显著影响。
(5) 当t<- tα/2(n-k-1),或t> tα/2(n-k-1)时,拒绝H0,而接受被择假设H1:β2≠0,即认为解释变量对应变量有显著影响。
例如,某一个一元线性回归模型,有10组样本,计算出t=20.2772,给定显著水平α=0.05,查t分布表得t0.025(8)=2.306 t>2.306,则拒绝H0,说明该解释变量对被解释变量存在显著性影响。
在没有t分布表时,通常以2为经验值,当t>2时,认为变量通过检验,对被解释变量有显著性影响。
1、 如何理解P值
P值:拒绝H0犯错误的概率。
当P值很小,即说明拒绝H0犯错误的概率小,则拒绝H0,即认为变量具有显著性。
当P值很大,即说明拒绝H0犯错误的概率很大,则不能轻易拒绝H0,即认为变量没有显著性。
经验值为P<5%,通过检验。
是指在一定的显著性水平下,从总体上对模型中被解释变量与解释变量之间的线性关系是否显著成立进行的一种统计检验。
前面所讲的拟合优度检验中,拟合优度高,则解释变量对被解释变量的解释程度就高,可以推测模型总体线性关系成立,反之,则不成立。但这只是一个模糊的推测,不能给出一个在统计上严格的结论。
方程显著性检验也是应用了假设检验。
2、具体做法:
(1) 构造零假设和被择假设:H0:β1=β2=0(即假设该方程不显著,模型设定错误),H1:β1β2不全为零(接受设定模型)
(2) 构造并计算统计量:F,服从自由度为K和n-K-1的F分布
(3) 按给定的显著水平,查表得临界值Fα(K,n-k-1).n代表样本容量,K代表X的个数
(4) 当F< Fα(K,n-k-1)时,接受H0,即认为该回归模型不显著,模型设定有误。
(5) 当F> Fα(K,n-k-1)时,拒绝H0,而接受被择假设H1,即认为该回归模型显著,接受该模型。
在一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,所以,F检验与t检验的结果是一致的,也就是说,对参数β1的显著性检验与对回归总体线性的显著性检验是等价的。它们之间还存在如下关系:
F=t2
例:在一个一元线性回归模型中,有21组样本,计算出F=28782.75。给定显著性水平为0.01
查表,F0.01(1,19)=8.18 F>F0.01(1,19),因此,拒绝原假设,接受模型设定。
2、 回归系数的区间估计
所谓的区间估计(数理统计学的概念),就是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围。
我们前面说过,对于同一个问题,采取重复抽样,同样用OLS估计方法,每一组样本都会得出一组估计值,所以我们说这个估计量实际是一个随机变量,而我们找到的一组估计量,只是一个点估计值。
对参数作出的点估计是随机变量,虽然是无偏估计,尽管在重复抽样中可预计它的均值会等于参数的真实值,但还不能说明所得点估计值的可靠性和精确性,我们用一个点估计值近似代表参数的真实值,二者的接近程度如何?以多大的概率达到该接近程度?
比如,我估计班上的平均年龄是20岁左右,这个左右可能是正负1岁,也就是说平均年龄的真实值在19至21岁这个区间内。同理,我们要设法找到包含真实参数的一个范围,并确定这个范围包含参数真实值的可靠程度。这就需要对参数进行区间估计。
回想前面所学的高斯——马尔可夫定理、假设检验,好象都是讨论参数估计值的精确程度和可靠性。我们梳理一下思路,就会发现:
为了通过估计值去对真实值作出推断,针对估计得到的参数值究竟“质量”如何,分三个层次进行了讨论:
1、 高斯——马尔可夫定理:证明使用OLS估计方法得出的点估计符合三个准则。
2、 假设检验:证明变量与方程都具有显著性。
3、 区间估计:同时测度估计量的精度和可靠性。
1、什么是区间估计?
为了确定参数估计值接近真实值的程度,我们构造一个以点估计值为中心的一个区间,真实值以一定概率落在这个区间之内。这个区间就称为置信区间,概率就称为置信水平或置信概率,置信度。
在变量的显著性检验中我们知道了:t=(β1—β1)/Se(β1)~t(n-k-1)
也就是说,在给定显著性水平α的情况下,
通过数学变换,得出了
于是得到,在(1- α)的置信概率下,β1的置信区间是:
例,书P52
3、置信区间特征
在实际应用中,我们希望置信水平越高,置信区间越小越好。
从置信区间的公式可以看出,希望置信区间越小,就是 越小,我们可以通过三种途径减小区间。
(1) 增大样本容量n。我们从T分布表可以看出,在同样的置信度下,随着n的增大,临界值在减小。同样,标准差也会减小。
(2) 提高模型的拟合优度,减小估计值的标准差。
第四节、回归预测
内插预测:如果解释变量为样本点之一。常常用内插预测检验样本回归方程的预测能力。如果预测值接近样本值,则说明在样本区间内的预测功效是好的。
外推预测:解释变量在样本区间之外的点。常用的预测。但不能用于预测太长的时间,通常小于n/5。
(也就是说所研究的经济总体的经济结构在样本期和预测期并无多大变化。)
具体的步骤我们就省略了,总之,我们最后也找到了一个t统计量,得出
给定α水平,平均值的预测区间为:
2、区间预测
同样,由于存在着抽样波动,对个别值的点预测与真实值之间存在偏差,仍需要对此进行区间估计。
具体过程省略,我们得出结果:
个别值的置信度1-α的预测区间为:
五、 应变量平均值预测与个别值预测比较
1、 二者的点预测是一致的
2、 个别值预测的置信区间比对平均值预测的置信区间更宽:原因是:
由样本估计量预测的应变量平均值与总体真实平均值的误差,是由于存在着抽样误差而产生的;而对应变量个别值的预测,不仅存在由抽样波动而引起的误差,而且还存在着随机扰动项ui。
3、由置信区间公式可以看出,对平均值和个别值的预测区间都不是常数,而是随着解释变量预测值XF而变化的。当XF=X时,置信区间最窄,当XF远离 X时,置信区间越宽,预测的精度越差。财大书P42
4、由公式可以看出,置信区间与样本容量有关。样本容量越大,预测区间越小。当n→∞时,不存在抽样误差,对平均值的预测误差趋于0,对个别值的预测只决定于随机扰动项的方差。
本文来源:https://www.2haoxitong.net/k/doc/85fb4f224b35eefdc8d33337.html
文档为doc格式