理解L1和L2正则化

L1和L2正则化

首先回顾范数、拉普拉斯分布、高斯分布。
范数、拉普拉斯分布、高斯分布

过拟合

过拟合示例

通常过拟合时为了拟合更多的数据,拟合的曲线的导数都会变得很大,所以模型的参数很大。为了防止过拟合,可以引入正则化来限制模型参数过大。

什么情况下容易发生过拟合

在数据维度很高的情况下,模型参数很多,模型复杂度高,容易发生过拟合。比如,“small n, large p problem”。n是样本数,p是特征维度。在这种情况下,p越大模型越复杂,由线性代数里的解方程问题知 wx = y,此时会存在无穷多个解。

L1、L2正则化

L1、L2正则化

不管是L1正则,还是L2正则,都是将参数大小的贡献计算进了模型的损失里,来约束模型参数不取过大绝对值的数。

L1、L2正则化的不同

L1通常导致稀疏解,即稀疏的模型,使得参数里有很多的0,这些为0的特征可以理解为与问题相关性很小,这样稀疏的模型在线上大规模数据场景下优势明显,稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”。

L2虽然也限制参数,但L2下参数保持非0的状态,向0靠近,但依旧不是0,也可以理解为L2认为所有特征都是有用的,只是相关性大小不同。

L1、L2正则化理解

从3个角度理解L1和L2正则化:

约束解

正则化可以理解成增加了一种约束,使得“小 n 大 p“问题的无穷解里,选择出一个合适的解。“小 n 大 p“说明了数据不足以确定一个在泛化数据上也效果很好的解,所以增加正则化约束来选择一个泛化效果也不错的解,泛化效果好,也就是防止了过拟合。

约束解-几何解释

如上图,损失函数的最小值容易在L1的角上取的,此时一个参数为0;而L2约束是一个圆,L2约束使得最优解靠近0。

梯度解析

梯度

从这个角度,L1带给参数的更新是sgn(Wi),即Wi为正时是1,为负时是-1。每次更新的方向都是将Wi每次改变恒定的一个单位长度向0靠近,直至为0,为0时L1正则的影响结束;

L2正则化每次更新的力度是Wi,随着Wi减小,更新的力度也随着减小,慢慢趋向于0。

先验分布

从贝叶斯的角度来看,正则化等价于对模型参数引入先验分布

回顾最大后验估计
最大似然估计和贝叶斯估计
Regularized Regression: A Bayesian point of view

以线性回归为例,y = wTx + e. e - N(0, l)

L1正则可以认为是给参数引入拉普拉斯分布

引入拉普拉斯分布

L2正则可以认为是给参数引入高斯分布

引入高斯分布


0 Comments