第二章 简单线性回归模型

发布时间:2012-11-02 23:23:12   来源:文档文库   
字号:

第二章 简单线性回归模型

研究经济变量之间的关系时,最基本且最简单的是只有两个变量的情况,两个变量最简单的关系是线性关系。研究变量间因果关系,最常用的方法是回归分析方法。所以,这章我们会从最简单的线性回归模型入手,来介绍在基本假定完全满足的条件下,规范的计量经济研究的基本理论和方法,为以后的内容打下基础。

回归分析与回归方程

一、 回归与相关

1、经济变量间的依存关系:通过第一章的学习,我们已经知道了计量经济学研究的中心问题就是各种经济变量之间的相互依存关系。而现实经济中各种经济变量之间的相互关系可以分为两类:

1)确定性关系:函数关系 Y=fX 当一个或若干个经济变量X取一定数值时,另一个变量Y一定会有确定的值与之相对应的。例如当价格不变时,销售额Y与销售量X之间的关系等。

2)不确定性关系:相关关系。当一个或若干个经济变量X取一定数值时,与之相对应的另一个变量Y值不确定,但按某种规律在一定范围内变化。例如,上一章的例子中,居民消费支出Y与可支配收入X之间就是这种关系。不是说收入一定,消费支出就一定,因为还有其他别的因素在影响着消费支出,但是,会呈现出居民消费支出随可支配收入增加而增长的规律性变动趋势。我们可以表示为Y=fXu),其中u为随机变量。

2、相关关系
◆对相关关系最直观的描述方式是坐标图散布图(P15

(1) 相关关系的类型

从涉及的变量数量

简单相关:只有两个变量的相关关系

多重相关(复相关):三个或三个以上变量

     从变量相关关系的表现形式

线性相关——散布图接近一条直线

非线性相关——散布图接近一条曲线

     从变量相关关系变化的方向

正相关——变量同方向变化,同增同减

负相关——变量反方向变化,一增一减

不相关

相关系数——反映变量间线性相关程度。至于具体的相关系数如何计算,在这里我不想过多地说,大家目前只需要知道相关系数就是表示变量之间相关的程度。

现在,我们假设把每个班女生的数量与得胃病的人数作为两个变量,通过散布图来看它们之间的关系,有可能会得出两者数字之间有相关关系的结果,但我们是不是可以得出女生更容易患胃病的结论呢?

相关关系因果关系

计量经济学研究关心的是变量间的因果关系,及其隐藏在随机性后面的统计规律性,这有赖于回归分析方法

3、回归分析

回归的古典意义:高尔顿遗传学的回归概念。英国生物学家高尔顿在遗传学研究中发现相对于一定身高的父母,子女的平均身高有朝向人类平均身高移动或回归的趋势。

回归的现代意义:关于一个应变量对若干解释变量依存关系的研究

回归的目的(实质):由已知或固定的解释变量去估计应变量的总体平均值。

P162.2

假设我们研究个人消费支出对个人可支配收入的依存关系,对应于各种个人可支配收入,个人消费支出虽不确定,但总会在一定的范围内变动。而且,平均说来,个人消费支出总是随着收入水平的增加而上升的。

回归分析就是要根据对个人消费支出与可支配收入的观测数据,确定当解释变量可支配收入确定时,应变量个人消费支出平均水平的变动轨迹——回归线,这种变动规律若用一定的函数形式表示出来,这个函数就是回归函数。

注意:回归分析是建立在经济变量既有相关关系又有因果关系的基础上进行的;

几个概念:
Y的条件分布:当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。

Y的条件期望:对于X 的每一个取值,Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值,以EY 表示

●回归线:对于每一个X的取值 ,都有Y的条件期望EY 与之对应,这些Y的条件期望的点的轨迹所形成的直线或曲线,称回归线。

●回归函数:应变量Y的条件期望EYXi 随解释变量X的的变化而有规律的变化,如把Y的条件期望EYXi 表现为X的某种函数

EYXi=f ( Xi )

这个函数称为回归函数。回归函数分为总体回归函数和样本回归函数。

二、总体回归函数(PRF
1、概念 :将总体应变量的条件期望表示为解释变量的某种函数,这个函数成为总体回归函数. EYXi =f ( Xi )

假如已知所研究的经济现象的总体应变量Y和解释变量X的每个观测值(通常这是不可能的),可计算出总体应变量Y条件均值EYXi),并将其表现为解释变量X的某种函数,这个函数称为总体回归函数(PRF

举例:见教材17页表2·1、表2·2,假如已知100个家庭构成的总体

2、总体回归函数的表现形式:
1条件均值表现形式:

假如Y的条件均值EYXi是解释变量X的线性函数,可表示为:

EYXi=β1+β2Xi

2个别值表现形式(随机设定形式):对于一定的 XiY的各个别值Yi分布在 EYXi的周围,若令各个别值 Yi与条件均值EYXi的偏差为 μi , μi 是随

机变量,则有μi =Yi- EYXi Yi=β1+β2Xi+μi

3、注意几点
●实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定

●总体回归函数中YX的关系可以是线性的,也可以是非线性的。

●计量经济学中线性回归模型的“线性” 有两种解释

变量而言是线性的Y的条件均值是X的线性函数,即回归线是一条直线,

参数而言是线性的Y的条件均值是参数β的线性函数。

在计量经济学中,通常是就参数而言来判断是否线性回归模型。

三、随机扰动项
倘若我们结合常举的例子来比较回归模型的两种表现形式,可以发现:条件均值的表现形式只说明了可支配收入X对消费支出条件期望的影响,而采用随机设定形式的模型则表明,除了可支配收入X以外,还有影响消费支出Y的其他因素,这个影响了Y,但却未被我们作为独立的经济变量纳入模型的其他因素就是我们计量经济学中一个非常重要的概念——随机扰动项。

1概念:各个Yi值与条件均值 EYXi的偏差,代表排除在模型以外的所有因素对Y的影响。

2性质:是期望为0有一定分布的随机变量。即EUi=0表示随机扰动项可以取不同的值,但考虑所有可能的值,他们的期望值或平均值等于零。

因为Yi=β1+β2Xi+μi 两边取期望EYXi= EYXi+EUiXi

3、引入随机扰动项的原因

   未知影响因素的代表 由于我们认识的局限性,对所研究经济问题可能认识不全面,或者不肯定;

   无法取得数据的已知影响因素的代表 比如我们知道消费偏好对消费支出有影响,但无法取得数据。

   众多细小影响因素的综合代表 影响较小,从计量经济的成本来看,

   模型的设定误差 设定模型时力图简单明了,较少的变量,简洁的函数形式,引起误差

   变量的观测误差 统计数据的误差

   变量内在随机性 例如涉及人们思想行为的变量,具有不可重复性或随机性。

随机扰动项包含着丰富的内容,在计量经济研究中起着重要的作用,随机扰动项的性质决定着计量经济方法的选择和使用。

四、样本回归函数(SRF

前面已经提到了,由于通常总体包含的单位数非常多,我们无法去掌握总体所有单位的全部取值,因此,实际的经济研究中总体回归函数通常是未知的。那我们所能做到的只是对应于确定的解释变量X,对应变量Y的一些样本进行观测。因此,

任务(目的):通过对样本观测获得的信息去估计总体回归函数。

P21例子和图2.4

样本回归线:对于X的一定值,取得的样本观测值,可计算其条件均值,样本观测值条件

均值的轨迹,称为样本回归线。

1 样本回归函数(SRF 把应变量Y的样本条件均值表示为解释变量X的某种函数,这个函数称为样本回归函数。
●每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有许多条。

样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。

2、样本回归函数的函数形式:与设定的总体回归函数的函数形式一致

样本回归函数如果为线性函数,可表示为Yi=β1+β2Xi

其中: Yi 是与Xi相对应的Y的样本条件均值, β1β2 分别是样本回归函数的参数

应变量Y的实际观测值Yi不完全等于样本条件均值,二者之差用ei 表示,称为残差。

Yi=β1+β2Xi+ei

对样本回归的理解

如果能够获得 的数值,显然:

是对总体回归函数参数 的估计

Yi是对总体条件期望EYXi 的估计

  在概念上类似总体回归函数中的 可视为对 的估计。

3、样本回归函数与总体回归函数的关系
P222.5

样本回归函数对总体回归函数的估计总会过高或过低,如何使建立的样本回归函数尽量靠近总体回归函数,这是计量经济学方法要解决的问题。

第二节 简单线性回归模型的最小二乘估计
正如经济学中的很多问题都是在假定完全竞争条件下来讨论一样,用样本去估计总体回归函数,除了样本以外,同样也需要一些假定前提条件,因为,只有具备了这些基本假定,所作出的估计才具有较好的统计性质。

用于估计简单线性回归模型中参数的方法有若干种,我们这里以及以后所说的基本假定都是针对最小二乘法的。也就是说,如果模型满足这些假定,最小二乘法就是一种适用的估计方法,否则最小二乘法就不再适用,而要发展其他方法来估计。

· 简单线性回归的基本假定

1、对模型和变量的假定

假定解释变量X非随机的确定性变量,

2、对随机扰动项u的假定 (高斯假定、古典假定)
假定1零均值假定: 在给定Xi的条件下,Ui的条件期望为零

EμiXi= 0

表示在Xi已知的条件下,随机误差项可以取不同的值,有些大于零,有些小于零,如果考虑所有可能的值,他们的平均值等于零。

假定2同方差假定: 在给定Xi的条件下,μi 的条件方差为某个相同的常数

Varμi=σ2

假定3无自相关假定: 随机扰动项μi的逐次值互不相关

Cov(μi , μj )=0 ij

假定4:随机扰动项μi 与解释变量Xi 不相关

Cov(μi ,Xi )=0

假定5正态性假定,即假定μi服从均值为零、方差为σ2的正态分布 u~ N (0, σ2)

根据中心极限定理,当样本容量趋于无穷大时,μi 的分布趋近于正态分布。所以对于任何实际模型,这一点都是满足的,因此,这一点可以不列入基本假定。在实际的建模过程中,对模型是否满足前面的假设都要进行检验,就是前面所说的计量经济学检验。

Y的分布性质:由于Yi=β1+β2Xi+μi,μi的分布性质决定了Yi 的分布性质。

μi的一些假定可以等价地表示为对Yi的假定:

二、普通最小二乘法(OLS最小二乘法`是应用最多的参数估计方法
1OLS的基本思想:

不同的估计方法可得到不同的样本回归参数 β1和β2 ,所估计的Yi 也不同。

理想的估计方法应使YiYi 的离差ei越小越好

ei可正可负,所以取Σei2 最小

minΣei2=minΣYi-Yi2=minYi-β1+β2Xi2

根据微积分中求极值的原理,要使Σei2达到极小,取偏导数为0,得正规方程
用克莱姆法则求解得观测值形式的OLS估计式:

由这些估计式,可以直接用样本观测值求得参数的点估计值。书P34页,用手工计算,进行参数估计。

2OLS估计式的统计性质
用最小二乘法估计的参数都是样本数据的函数,由于取得的样本不同,样本数据就不同,结果参数的估计量是随样本而变化的随机变量。

那么,用OLS法估计的参数是否可靠,是否满足计量经济研究的要求呢?我们用第一章所讲的三条参数估计准则来判别它:

通过一系列的数学证明推导,鉴于你们的特点,我们把过程省略,唯一需要提的一点是(有人曾问过我,判别无偏性时,用到了真实值,但是真实值并不知道,又怎么判别呢?的确,在具体的问题上,真实值虽然存在,但未知,否则也不需要我们去分析了。但在理论的逻辑分析中,我们知道真实值存在,且等于估计值加上ui,而且,我们又假定了Eui=0,这样,在证明OLS估计式是否符合无偏性时,我们虽然不知道真实值具体等于多少,但我们利用期望计算的一些性质,仍然可以证明它具有无偏性。)

通过证明,最后得出结论,在古典假定条件下,OLS估计式β1和β2 参数β1和β2的最佳无偏线性估计式(BLUE),这一结论又称为高斯——马尔科夫定理。

我们知道,寻求最佳线性无偏估计式是计量经济学努力实现的目标,通过上面的结论,我们知道了OLS估计的最小方差性和无偏性,结合起来,使得按同样的置信度,OLS估计量的置信区间最小,最集中于真实值周围。这就是OLS估计法能得到广泛应用的重要原因。

第三节、简单线性回归模型的统计检验

根据“四步十二点”,我们完成模型的设立与参数的估计后,就进入了模型检验步骤。

因为计量经济模型是应用数理统计方法建立的,它必须满足数学理论与方法上的要求,所以,在模型参数估计后,首先我们要检验模型的经济内涵,参数的符号和大小是否满足经济理论和实践。然后,我们要来检验它是否满足数学理论与方法的要求。这就是模型的统计检验。统计检验包括三部分:拟合优度检验、变量的显著性检验和方程的显著性检验。

一、 拟合优度检验:检验模型对样本观测值的拟合程度。

样本回归线是对样本数据的一种拟合,对于同一组样本数据,不同估计方法可拟合出不同的回归线。拟合的回归线与样本观测值总有偏离。

样本回归线对样本观测数据拟合的优劣程度——拟合优度。样本观测值距回归线越近,拟合优度越好,模型对所研究问题的解释程度越强。

既然采用了最小二乘估计方法,已经保证了模型最好地拟合样本观测值,为什么还要检验拟合优度呢?

最小二乘法所保证的最好拟合,是同一个问题的内部比较,即在一个模型既定的情况下,用最小二乘法估计比用其他方法能更好地拟合,但是,在一个特定的条件下做的最好的并不一定就是高质量的。拟合优度检验结果所表示的优劣是对所研究问题采用不同模型形式之间的比较。

基本思想:从量化的角度,进一步测度采用最小二乘法原则时,Σei2究竟有多小。

拟合优度的度量建立在对总离差分解的基础上进行的。

1、总离差的分解
残差 以平均值为准,分析Y的观测值、估计值与平均值的关系

总离差

回归

Y

总离差, yi=Yi-Y,可以分为两部分:估计值与平均值的差,它是由样本回归线解释了的部分;观测值与估计值的差,即残差,不能由样本回归线解释的部分。考虑到偏离的正负,我们把这三部分都用平方和来表示:

TSS(总离差平方和、总变差平方和、总体平方和):反映样本观测值总体离差的大小;

ESS(回归平方和):反映由模型解释了的那部分离差的大小;

RSS(残差平方和):反映样本观测值与估计值偏离的大小,也是模型未解释的那部分离差大小。

可以通过证明:TSS=ESS+RSS

2、可决系数r2

从上面的分析可以知道,由样本回归线解释了的部分越大,残差平方和越小,样本回归线与样本观测值拟合优度就越好。为了建立一个便于不同模型之间比较的标准,我们选择构建一个相对量作为判别模型拟合优度的指标

可决系数:回归平方和在总离差平方和中所占的比重。r2

r2=ESS/TSS=1-RSS/TSS

可决系数越高,说明在总离差中由模型作出了解释的部分占比重越大,模型的拟合优度越高;

可决系数越低,说明在总离差中由模型作出了解释的部分占比重越小,模型的拟合优度越差。

由上式可以看出, r2的取值范围在01之间。当 r2=0,意味着回归线与观测值之间没有任何关系;当 r2=1时,模型与样本观测值完全拟合。可决系数越靠近1,越好。

可决系数到底达到多大才算通过检验,没有绝对的标准,视具体情况而定。拟合优度不是判别模型质量的唯一标准。可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)

二、 变量显著性检验(t检验)

目的:检验每个解释变量是否对被解释变量的影响都是显著的,以考察变量设定是否合理。

1、假设检验的基本思想:在某种原假设成立的条件下(H0),利用适当的统计量和给定的显著性水平α,构造一个小概率事件,可以认为小概率事件在一次观测中基本不会发生。如果该事件居然发生了,则认为原假设不真,从而拒绝原假设,接受被择假设(H1)。这个小概率具体小到什么程度,就是我们给出的显著性水平。

2、具体做法:

(1) 构造零假设和被择假设:H0β2=0(即假设该变量不显著),H1β20

(2) 构造统计量:t=β^/Se^

(3) 按给定的显著水平,查表得临界值tα/2(n-k-1).n代表样本容量

(4) -tα/2(n-k-1)ttα/2(n-k-1)时,接受H0:β2=0,即认为解释变量对应变量没有显著影响。

(5) t<- tα/2(n-k-1),或t> tα/2(n-k-1)时,拒绝H0,而接受被择假设H1:β20,即认为解释变量对应变量有显著影响。

例如,某一个一元线性回归模型,有10组样本,计算出t=20.2772,给定显著水平α=0.05,查t分布表得t0.0258=2.306 t>2.306,则拒绝H0,说明该解释变量对被解释变量存在显著性影响。

在没有t分布表时,通常以2为经验值,当t>2时,认为变量通过检验,对被解释变量有显著性影响。

1、 如何理解P

P值:拒绝H0犯错误的概率。

P值很小,即说明拒绝H0犯错误的概率小,则拒绝H0,即认为变量具有显著性。

P值很大,即说明拒绝H0犯错误的概率很大,则不能轻易拒绝H0,即认为变量没有显著性。

经验值为P<5%,通过检验。

三、 方程显著性检验(F检验)

是指在一定的显著性水平下,从总体上对模型中被解释变量与解释变量之间的线性关系是否显著成立进行的一种统计检验。

前面所讲的拟合优度检验中,拟合优度高,则解释变量对被解释变量的解释程度就高,可以推测模型总体线性关系成立,反之,则不成立。但这只是一个模糊的推测,不能给出一个在统计上严格的结论。

方程显著性检验也是应用了假设检验。

2、具体做法:

(1) 构造零假设和被择假设:H0β1=β2=0(即假设该方程不显著,模型设定错误),H1β1β2不全为零(接受设定模型)

(2) 构造并计算统计量:F,服从自由度为Kn-K-1F分布

(3) 按给定的显著水平,查表得临界值Fα(Kn-k-1).n代表样本容量,K代表X的个数

(4) F< Fα(Kn-k-1)时,接受H0即认为该回归模型不显著,模型设定有误。

(5) F> Fα(Kn-k-1)时,拒绝H0,而接受被择假设H1即认为该回归模型显著,接受该模型。

一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,所以,F检验与t检验的结果是一致的,也就是说,对参数β1的显著性检验与对回归总体线性的显著性检验是等价的。它们之间还存在如下关系:

F=t2

例:在一个一元线性回归模型中,有21组样本,计算出F=28782.75。给定显著性水平为0.01

查表,F0.01119=8.18 F>F0.01119),因此,拒绝原假设,接受模型设定。

2、 回归系数的区间估计

所谓的区间估计(数理统计学的概念),就是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围。

我们前面说过,对于同一个问题,采取重复抽样,同样用OLS估计方法,每一组样本都会得出一组估计值,所以我们说这个估计量实际是一个随机变量,而我们找到的一组估计量,只是一个点估计值。

对参数作出的点估计是随机变量,虽然是无偏估计,尽管在重复抽样中可预计它的均值会等于参数的真实值,但还不能说明所得点估计值的可靠性和精确性,我们用一个点估计值近似代表参数的真实值,二者的接近程度如何?以多大的概率达到该接近程度?

比如,我估计班上的平均年龄是20岁左右,这个左右可能是正负1岁,也就是说平均年龄的真实值在1921岁这个区间内。同理,我们要设法找到包含真实参数的一个范围,并确定这个范围包含参数真实值的可靠程度。这就需要对参数进行区间估计。

回想前面所学的高斯——马尔可夫定理、假设检验,好象都是讨论参数估计值的精确程度和可靠性。我们梳理一下思路,就会发现:

为了通过估计值去对真实值作出推断,针对估计得到的参数值究竟“质量”如何,分三个层次进行了讨论:

1、 高斯——马尔可夫定理:证明使用OLS估计方法得出的点估计符合三个准则。

2、 假设检验:证明变量与方程都具有显著性。

3、 区间估计:同时测度估计量的精度和可靠性。

1、什么是区间估计?

为了确定参数估计值接近真实值的程度,我们构造一个以点估计值为中心的一个区间,真实值以一定概率落在这个区间之内。这个区间就称为置信区间,概率就称为置信水平或置信概率,置信度。

我们用数学语言来表示它:在确定参数估计式概率分布性质的基础上,可找到两个正数δα(0≤α≤1),使得置信区间(β1δ,β1 +δ )包含真实值的概率为1— α,

Pβ1δβ1β1 +δ)=1-α

这样的区间称为所估计参数的置信区间。

正确理解置信区间

真实值β1是未知的确定的数, β1δ,β1 +δ 是随机区间,随抽样而变化。从重复抽样的观点看,每次抽样都可构造一个区间,象这样的区间,平均来说有(1- α)次包含真实值。更象是套圈游戏,真实值就是设立在那里的目标,而每一次抽样构建的一个区间就是我们手上的圈,重复抽样之下,会有1- α次套中真实值。错误的理解是打靶,认为区间就是设立在那里的靶,真实值是我们射出的子弹,会有1- α次射中靶。

但对特定样本,一但确定 估计值 ,区间 β1δ,β1 +δ 就不是随机的,而是特定的,这时它或者包含真实值(包含的概率为1),或者不包含真实(包含的概率为0)。就象我们一旦抛出了手中的一个圈,就只有两种情况,要么套中,要么没有套中。

2、构建置信区间

在变量的显著性检验中我们知道了:t=β1β1/Seβ1~tn-k-1

也就是说,在给定显著性水平α的情况下,

通过数学变换,得出了

于是得到,在(1- α)的置信概率下,β1的置信区间是:

例,书P52

3、置信区间特征

在实际应用中,我们希望置信水平越高,置信区间越小越好。

从置信区间的公式可以看出,希望置信区间越小,就是 越小,我们可以通过三种途径减小区间。

(1) 增大样本容量n。我们从T分布表可以看出,在同样的置信度下,随着n的增大,临界值在减小。同样,标准差也会减小。

(2) 提高模型的拟合优度,减小估计值的标准差。

置信区间与置信概率是矛盾的。置信概率越高,置信区间就会越大。如果要缩小置信区间,在其他条件不变的情况下,置信概率就要降低。

第四节、回归预测

一、回归分析结果的报告

经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常用以下规范化的方式:

例如:回归结果为

Yi = 24·4545 + 0·5091Xi

6·4138 0·0357 标准误差SE

t = (3·8128) (14·2605) t 统计量值

r2 = 0·9621 df = 8 可决系数和自由度

F = 202·87 DW = 2.3 F 统计量 DW统计量

二、应变量平均值预测
1、基本思想:

●计量经济预测是利用所估计的样本回归模型 ,用解释变量的已知值或预测值,对预测期或样本以外的应变量数值作出定量的估计。

内插预测:如果解释变量为样本点之一。常常用内插预测检验样本回归方程的预测能力。如果预测值接近样本值,则说明在样本区间内的预测功效是好的。

外推预测:解释变量在样本区间之外的点。常用的预测。但不能用于预测太长的时间,通常小于n/5

●计量经济预测是一种条件预测:是在一定先决条件下进行的预测

条件:a模型设定的关系式不变,所估计的参数不变;

(也就是说所研究的经济总体的经济结构在样本期和预测期并无多大变化。)

b 解释变量在预测期的取值已确定或已作出预测。

●对应变量的预测分为平均值预测个别值预测
●对应变量的预测又分为点预测区间预测

平均值预测 个别值预测

区间预测 点预测 区间预测

预测值、平均值、个别值的相互关系:
SRF

点预测值 PRF

真实平均值

个别值

我们根据样本回归方程对应变量进行预测,因为样本估计值与真实值的差别,因此,有估计值预测的应变量的平均值与总体真实的平均值也有误差,所以我们要同时进行点预测与区间预测。

2Y平均值的点预测
将解释变量预测值直接代入样本估计方程:

计算的YF是一个平均值的点预测值

例:我们估计出的消费支出与可支配收入的关系为:Yi=37.22+0.5414Xi,如果预计在预测期可支配收入增加到370元,代入模型,可计算出预测期的消费支出为237.5元。

3Y平均值的区间预测
基本思想:

●由于存在抽样波动,预测的平均值不一定等于真实平均值,还需要对真实平均值的置信区间作区间估计。

●为对Y作区间预测,必须确定平均值预测值的抽样分布(如前面推导估计值的置信区间时用的T分布)

  必须找出与预测值和真实值都有关的统计量 (如t=β1β1/Seβ1))

具体的步骤我们就省略了,总之,我们最后也找到了一个t统计量,得出

给定α水平,平均值的预测区间为:

四、 应变量个别值预测

1、点预测:根据样本回归方程,计算出的预测值YF,既是对总体回归线上平均值的预测值,也是真实值Y0的预测值。所以,应变量个别值的点预测与应变量平均值的点预测是一致的。

2、区间预测

同样,由于存在着抽样波动,对个别值的点预测与真实值之间存在偏差,仍需要对此进行区间估计。

具体过程省略,我们得出结果:

个别值的置信度1-α的预测区间为:

五、 应变量平均值预测与个别值预测比较

1、 二者的点预测是一致的

2、 个别值预测的置信区间比对平均值预测的置信区间更宽:原因是:

由样本估计量预测的应变量平均值与总体真实平均值的误差,是由于存在着抽样误差而产生的;而对应变量个别值的预测,不仅存在由抽样波动而引起的误差,而且还存在着随机扰动项ui

3、由置信区间公式可以看出,对平均值和个别值的预测区间都不是常数,而是随着解释变量预测值XF而变化的。当XF=X时,置信区间最窄,当XF远离 X时,置信区间越宽,预测的精度越差。财大书P42

4、由公式可以看出,置信区间与样本容量有关。样本容量越大,预测区间越小。当n→∞时,不存在抽样误差,对平均值的预测误差趋于0,对个别值的预测只决定于随机扰动项的方差。

本文来源:https://www.2haoxitong.net/k/doc/85fb4f224b35eefdc8d33337.html

《第二章 简单线性回归模型.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式