线性回归最小二乘法估计理论推导

2025年7月12日 133点热度 0人点赞 0条评论

内容纲要

以下是关于最小二乘法（Ordinary Least Squares, OLS）估计的理论推导与证明的详细解析，内容涵盖基本假设、一元/多元线性回归的推导、统计性质及几何解释等内容。

1. 最小二乘法的核心思想与基本假设

核心思想：通过最小化残差平方和（RSS）求解模型参数： ```
\begin{equation}
\operatorname{RSS}(\boldsymbol{\beta})=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2=(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})^{\top}(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})
\end{equation}
```
其中 $$y$$ 为观测值向量，\(X) 为设计矩阵，\boldsymbol{\beta} 为待估参数向量。
```
经典线性回归模型（CLR）的假设：
1. 线性关系：y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i。
2. 误差项零均值：E(\varepsilon_i) = 0。
3. 同方差性：\text{Var}(\varepsilon_i) = \sigma^2（常数）。
4. 无自相关：\text{Cov}(\varepsilon_i, \varepsilon_j) = 0 \ (i \neq j)。
5. 解释变量非随机：\mathbf{X} 与误差项独立。

2. 一元线性回归模型的OLS推导

模型设定： ```
y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i=1,\dots,n


**目标函数（残差平方和）**： ```
\text{RSS} = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2

求解步骤： 1. 对 \beta_0 和 \beta_1 分别求偏导并令导数为零： ```
\begin{cases}
\frac{\partial \text{RSS}}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \
\frac{\partial \text{RSS}}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0
\end{cases}

2. **化简为正规方程**： ```
  \begin{cases}
  n\beta_0 + \beta_1 \sum x_i = \sum y_i \\
  \beta_0 \sum x_i + \beta_1 \sum x_i^2 = \sum x_i y_i
  \end{cases}

解析解： ```
\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
```
其中 \bar{x} 和 \bar{y} 为样本均值。
```

3. 多元线性回归的矩阵形式推导

模型设定： ```
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \mathbf{X} \in \mathbb{R}^{n \times (p+1)}


**目标函数**： ```
\text{RSS}(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

求解步骤： 1. 对 \boldsymbol{\beta} 求导并令导数为零： ```
\frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^\top \mathbf{y} + 2\mathbf{X}^\top \mathbf{X}\boldsymbol{\beta} = 0

2. **正规方程**： ```
  \mathbf{X}^\top \mathbf{X} \boldsymbol{\beta} = \mathbf{X}^\top \mathbf{y}

参数解（当 \mathbf{X}^\top \mathbf{X} 可逆时）： ```
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}
```
**二阶条件验证**：Hessian 矩阵 2\mathbf{X}^\top \mathbf{X} 正定，确保解为全局最小值。
```

4. OLS估计量的统计性质与证明

无偏性

定理：在 CLR 假设下，\hat{\boldsymbol{\beta}} 是 \boldsymbol{\beta} 的无偏估计，即 E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}。
证明： ```
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} = \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\varepsilon}
```
由 E(\boldsymbol{\varepsilon}) = \mathbf{0}，得 E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}。
```

最小方差性（高斯-马尔可夫定理）

定理：在 CLR 假设下，OLS 估计量是所有线性无偏估计量中方差最小的（BLUE）。
证明思路：
1. 定义任意线性无偏估计量 \tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}。
2. 由无偏性推出 \mathbf{C}\mathbf{X} = \mathbf{I}。
3. 计算 \text{Var}(\tilde{\boldsymbol{\beta}}) 并与 OLS 比较，证明 \text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}) 为半正定矩阵。

方差表达式

\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1}

其中 \sigma^2 需通过残差方差估计：\hat{\sigma}^2 = \frac{\text{RSS}}{n-p-1}。 - - - - - -

5. OLS估计的几何解释

投影视角：OLS 等价于将 \mathbf{y} 正交投影到 \mathbf{X} 的列空间 \mathcal{C}(\mathbf{X}) 上。
投影矩阵：\mathbf{P} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top，拟合值 \hat{\mathbf{y}} = \mathbf{P} \mathbf{y}。
残差性质：残差向量 \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} 与 \mathcal{C}(\mathbf{X}) 正交，即 \mathbf{X}^\top \mathbf{e} = \mathbf{0}。