以下是关于最小二乘法(Ordinary Least Squares, OLS)估计的理论推导与证明的详细解析,内容涵盖基本假设、一元/多元线性回归的推导、统计性质及几何解释等内容。
1. 最小二乘法的核心思想与基本假设
-
核心思想:通过最小化残差平方和(RSS)求解模型参数: ```
\begin{equation}
\operatorname{RSS}(\boldsymbol{\beta})=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2=(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})^{\top}(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})
\end{equation}其中 $$y$$ 为观测值向量,
\(X)
为设计矩阵,\boldsymbol{\beta}
为待估参数向量。 -
经典线性回归模型(CLR)的假设:
- 线性关系:
y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i
。 - 误差项零均值:
E(\varepsilon_i) = 0
。 - 同方差性:
\text{Var}(\varepsilon_i) = \sigma^2
(常数)。 - 无自相关:
\text{Cov}(\varepsilon_i, \varepsilon_j) = 0 \ (i \neq j)
。 - 解释变量非随机:
\mathbf{X}
与误差项独立。
- 线性关系:
-
2. 一元线性回归模型的OLS推导
模型设定: ```
y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i=1,\dots,n
**目标函数(残差平方和)**: ```
\text{RSS} = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2
求解步骤: 1. 对 \beta_0
和 \beta_1
分别求偏导并令导数为零: ```
\begin{cases}
\frac{\partial \text{RSS}}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \
\frac{\partial \text{RSS}}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0
\end{cases}
2. **化简为正规方程**: ```
\begin{cases}
n\beta_0 + \beta_1 \sum x_i = \sum y_i \\
\beta_0 \sum x_i + \beta_1 \sum x_i^2 = \sum x_i y_i
\end{cases}
-
解析解: ```
\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}其中
\bar{x}
和\bar{y}
为样本均值。
3. 多元线性回归的矩阵形式推导
模型设定: ```
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \mathbf{X} \in \mathbb{R}^{n \times (p+1)}
**目标函数**: ```
\text{RSS}(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})
求解步骤: 1. 对 \boldsymbol{\beta}
求导并令导数为零: ```
\frac{\partial \text{RSS}}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^\top \mathbf{y} + 2\mathbf{X}^\top \mathbf{X}\boldsymbol{\beta} = 0
2. **正规方程**: ```
\mathbf{X}^\top \mathbf{X} \boldsymbol{\beta} = \mathbf{X}^\top \mathbf{y}
-
参数解(当
\mathbf{X}^\top \mathbf{X}
可逆时): ```
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}**二阶条件验证**:Hessian 矩阵
2\mathbf{X}^\top \mathbf{X}
正定,确保解为全局最小值。
4. OLS估计量的统计性质与证明
无偏性
- 定理:在 CLR 假设下,
\hat{\boldsymbol{\beta}}
是\boldsymbol{\beta}
的无偏估计,即E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}
。 -
证明: ```
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} = \boldsymbol{\beta} + (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\varepsilon}由
E(\boldsymbol{\varepsilon}) = \mathbf{0}
,得E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}
。
最小方差性(高斯-马尔可夫定理)
- 定理:在 CLR 假设下,OLS 估计量是所有线性无偏估计量中方差最小的(BLUE)。
- 证明思路:
- 定义任意线性无偏估计量
\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}
。 - 由无偏性推出
\mathbf{C}\mathbf{X} = \mathbf{I}
。 - 计算
\text{Var}(\tilde{\boldsymbol{\beta}})
并与 OLS 比较,证明\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}})
为半正定矩阵。
- 定义任意线性无偏估计量
方差表达式
\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1}
其中 \sigma^2
需通过残差方差估计:\hat{\sigma}^2 = \frac{\text{RSS}}{n-p-1}
。 - - - - - -
5. OLS估计的几何解释
-
投影视角:OLS 等价于将
\mathbf{y}
正交投影到\mathbf{X}
的列空间\mathcal{C}(\mathbf{X})
上。 -
投影矩阵:
\mathbf{P} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top
,拟合值\hat{\mathbf{y}} = \mathbf{P} \mathbf{y}
。 -
残差性质:残差向量
\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}
与\mathcal{C}(\mathbf{X})
正交,即\mathbf{X}^\top \mathbf{e} = \mathbf{0}
。 -
6. 应用注意事项与扩展
-
假设违反的应对:
- 异方差:使用加权最小二乘法(WLS)。
- 多重共线性:正则化(如 Ridge 回归)或变量筛选。
-
不可逆问题:当
\mathbf{X}^\top \mathbf{X}
奇异时(特征数 > 样本量),需添加正则项或使用伪逆。 -
模型诊断:通过残差图检验同方差性、正态性假设(QQ图)。
-
文章评论