以下是关于最小二乘法(Ordinary Least Squares, OLS)估计的理论推导与证明的详细解析,内容涵盖基本假设、一元/多元线性回归的推导、统计性质及几何解释等内容。
1. 最小二乘法的核心思想与基本假设
- 核心思想:通过最小化残差平方和(RSS)求解模型参数:
(1)
其中
\mathbf{y}
为观测值向量,\mathbf{X}
为设计矩阵,\boldsymbol{\beta}
为待估参数向量。 - 经典线性回归模型(CLR)的假设:
- 线性关系:
y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i
。 - 误差项零均值:
E(\varepsilon_i) = 0
。 - 同方差性:
\text{Var}(\varepsilon_i) = \sigma^2
(常数)。 - 无自相关:
\text{Cov}(\varepsilon_i, \varepsilon_j) = 0 \ (i \neq j)
。 - 解释变量非随机:
\mathbf{X}
与误差项独立。
- 线性关系:
2. 一元线性回归模型的OLS推导
模型设定:
y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i=1,\dots,n
目标函数(残差平方和):
\text{RSS} = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2
求解步骤:
- 对
\beta_0
和\beta_1
分别求偏导并令导数为零:\begin{cases} \frac{\partial \text{RSS}}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \\ \frac{\partial \text{RSS}}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \end{cases}
- 化简为正规方程:
\begin{cases} n\beta_0 + \beta_1 \sum x_i = \sum y_i \\ \beta_0 \sum x_i + \beta_1 \sum x_i^2 = \sum x_i y_i \end{cases}
- 解析解:
\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
其中
\bar{x}
和\bar{y}
为样本均值。
3. 多元线性回归的矩阵形式推导
模型设定:
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \mathbf{X} \in \mathbb{R}^{n \times (p+1)}
目标函数:
\text{RSS}(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})
求解步骤:
- 对
\boldsymbol{\beta}
求导并令导数为零:\frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^\top \mathbf{y} + 2\mathbf{X}^\top \mathbf{X}\boldsymbol{\beta} = 0
- 正规方程:
\mathbf{X}^\top \mathbf{X} \boldsymbol{\beta} = \mathbf{X}^\top \mathbf{y}
- 参数解(当
\mathbf{X}^\top \mathbf{X}
可逆时):\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}
二阶条件验证:Hessian 矩阵
2\mathbf{X}^\top \mathbf{X}
正定,确保解为全局最小值。
4. OLS估计量的统计性质与证明
无偏性
- 定理:在 CLR 假设下,
\hat{\boldsymbol{\beta}}
是\boldsymbol{\beta}
的无偏估计,即E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}
。 - 证明:
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} = \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\varepsilon}
由
E(\boldsymbol{\varepsilon}) = \mathbf{0}
,得E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}
。
最小方差性(高斯-马尔可夫定理)
- 定理:在 CLR 假设下,OLS 估计量是所有线性无偏估计量中方差最小的(BLUE)。
- 证明思路:
- 定义任意线性无偏估计量
\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}
。 - 由无偏性推出
\mathbf{C}\mathbf{X} = \mathbf{I}
。 - 计算
\text{Var}(\tilde{\boldsymbol{\beta}})
并与 OLS 比较,证明\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}})
为半正定矩阵。
- 定义任意线性无偏估计量
方差表达式
\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1}
其中 \sigma^2
需通过残差方差估计:\hat{\sigma}^2 = \frac{\text{RSS}}{n-p-1}
。
5. OLS估计的几何解释
- 投影视角:OLS 等价于将
\mathbf{y}
正交投影到\mathbf{X}
的列空间\mathcal{C}(\mathbf{X})
上。 - 投影矩阵:
\mathbf{P} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top
,拟合值\hat{\mathbf{y}} = \mathbf{P} \mathbf{y}
。 - 残差性质:残差向量
\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}
与\mathcal{C}(\mathbf{X})
正交,即\mathbf{X}^\top \mathbf{e} = \mathbf{0}
。
6. 应用注意事项与扩展
- 假设违反的应对:
- 异方差:使用加权最小二乘法(WLS)。
- 多重共线性:正则化(如 Ridge 回归)或变量筛选。
- 不可逆问题:当
\mathbf{X}^\top \mathbf{X}
奇异时(特征数 > 样本量),需添加正则项或使用伪逆。 - 模型诊断:通过残差图检验同方差性、正态性假设(QQ图)。
文章评论