backpropagation公式推导

Backpropagation算法


符号表示:

1, ..., L-2, L-1, L表示网络的层。
 g1, ..., gL-1, gL表示每层对应使用的激活函数。

反向传播算法主要利用求导链式法则。


Backpropagation-1

Backpropagation-2

0 Comments

导数、偏导数、方向导数、梯度的简单理解


学习过程中总会涉及到很多概念,为了尽快掌握概念,我一般会用这样的方法:用自己的一句话概括一下你所理解的概念,然后写下来。

搜索关键词,打开排列在前几的文章,快速浏览各个文章,然后挑一个适合自己的能快速理解的一篇,仔细阅读完,然后写下一句话的总结。不需要完美,主要是快速记录。

推荐知乎上的一篇文章,点这里


导数

直观地,导数就是函数图像上一条切线的斜率。导数代表了函数值的变化率,即x变化很小一部分导致的y产生的变化的变化率。

偏导数

对于多元函数,偏导数代表了函数值在某个自变量维度上的变化率。比如z(x,y),z对x的偏导数就是固定y不变,x维度上变化一小部分导致了z产生的变化的变化率。

方向导数

对于一个二元函数,函数图像曲面上的某一点会存在一个切平面。经过那个点,存在360度的切线,不同的角度代表了不同的方向,x维度是其中一个方向。x轴方向上的导数就是x方向的导数。其他非x、y方向的方向导数可以通过与x轴、y轴的夹角进行计算得到。

梯度

切平面上各个方向的方向导数肯定存在最大的那个,那么这个方向就是梯度的方向,梯度的大小就是方向导数的大小了。


所以梯度是一个向量,导数,偏导数,方向导数都是一个标量,代表了变化率。梯度代表了最大的变化率和变化率最大时的变化方向。

所以机器学习在用梯度下降求解最优化问题时,用的负梯度,负梯度即梯度的反方向——函数值下降最快的方向。

0 Comments

Softmax回归公式推导

Softmax Regression

softmax回归的介绍可以看这个,点这里

网络上的一些推导,感觉有问题,第一次推也犯了同样的错,但原因不是文章里那样。文章链接

以下是我的第二次推导:

1-Softmax Regression

2-Softmax Regression

0 Comments

逻辑回归公式推导

Logistic Regression

Sigmoid Function

Logistic Regression

0 Comments

线性回归模型

线性回归模型

参考

Spark2.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解 - qq_34531825的博客 - CSDN博客

回归系列之L1和L2正则化 - 简书

Regularized Regression: A Bayesian point of view

最小二乘法和最大似然估计区别和联系

Linear Regression

最小二乘法

回顾
无偏估计:样本均值的期望 等于 总体均值
有偏估计:

最小二乘法推导

最大似然估计

回顾 最大似然估计和贝叶斯估计 | Oath2yangmen’s Blog

最大似然估计:假设参数固定,为了求该参数,通过使得事件发生的概率最大来求解参数

从最大似然估计推导损失函数

最大似然估计推导

最优化问题求解

回顾 矩阵求导常用公式 Hessian矩阵 Jacobian矩阵 | Oath2yangmen’s Blog

多元函数,多个因变量下的一阶导数是Jacobian矩阵;单一因变量下的一阶导数是一个与自变量维数相同的向量;单一因变量下的二阶导数是Hessian 矩阵,矩阵的行数等于因变量的个数,列数等于自变量的个数,二阶导数等于一阶导数向量的Jacobian矩阵。

二阶导数代表了函数的凹凸性。

线性回归模型的损失函数一阶导数和二阶导数均连续,所以是一个具有全局最小值的凸优化问题。

L1、L2正则化讨论

回顾 理解L1和L2正则化 | Oath2yangmen’s Blog

共线性数据、欠定方程组

共线性数据:“自变量之间呈现出了某种线性关系”。线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系从而使模型估计失真或难以估计准确。

欠定方程组 :当样本点比较少,而特征比较多,特征个数多于样本个数,这时候输入数据的矩阵X是非满秩的,最直白的话就是方程的个数少于未知数,也就是欠定方程组,理论上应该有无穷多解。

对于这两种问题最小二乘进行normal equation解析时失效,X矩阵为奇异矩阵或者说不满秩。普通最小二乘一般解决超定方程组问题。

Ridge回归 - L2 norm的线性回归

“是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更稳定、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。”

Ridge回归解析解推导

Ridge回归对原来的解加了 lamda * I 项,使不奇异,可以进行求逆运算。
L2-norm的线性回归可以用normal equation解出解析解,也可以用SGD或LBFGS求解。不同情况选择适合的优化方法。阅读 求解L1正则化问题 | Oath2yangmen’s Blog

从贝叶斯角度分析Ridge回归可以认为是给参数引入高斯分布,阅读 理解L1和L2正则化 | Oath2yangmen’s Blog

Lasso回归 - L1 norm的线性回归

Lasso回归

从贝叶斯角度分析Lasso回归可以认为是给参数引入拉普拉斯分布,阅读 理解L1和L2正则化 | Oath2yangmen’s Blog

ElasticNet回归 - 混合L1-norm和L2-norm的线性回归

ElasticNet回归

从贝叶斯角度分析ElasticNet回归可以认为是给参数引入拉普拉斯分布和高斯分布,阅读 理解L1和L2正则化 | Oath2yangmen’s Blog

加正则项后求解

阅读 求解L1正则化问题 | Oath2yangmen’s Blog

0 Comments