- Published on
神经网络
- Authors
- Name
- Tan Xiang
1.感知机
无法解决异或问题。
2.多层感知机
必须加激活函数,否则会退化成单层网络。
激活函数:1. 让多层感知机成为真正的多层
- 引入非线性,使网络可以逼近任意非线性函数。(万能逼近定理)
激活函数需要以下几点性质:
- 连续并可导。便于利用数值优化的方法来学习网络参数。
- 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。
- 激活函数的导函数的值域要在合适区间内。(反向传播)
3.反向传播
作用:用于权重更新,使网络输出更接近标签.
反向传播原理:链式求导法则。
损失函数
损失函数(Loss Funtion):对单个样本
代价函数(Cost Funtion):对总体
目标函数(objective Funtion):
两种常见损失函数:
- MSE(均方误差,Mean Squared Error):常用于回归任务
- CE(Cross entropy,交叉熵)
用于衡量两个分布的差异,常在分类任务中使用。
信息熵:描述信息的不确定性。所有可能取值的信息量的期望。
相对熵:又称为 K-L 散度,衡量两个分布之间的差异。
可见,交叉熵 = 信息熵 + 相对熵 。
结论:优化交叉熵等于优化相对熵。
softmax 函数:将数据变换到符合概率分布的形式。
将原本的 输出 先求指数(实现非负),然后除以指数之和(实现概率之和为1)。
权值初始化
高斯分布随机初始化,从高斯分布中随机采样,对权重进行赋值,比如 N ~ (0,0.01)。
3σ准则: 数值分布在 (μ-3σ,μ+3σ)中的概率为 99.73%。
自适应标准差:Xavier 初始化: 《Understanding the difficulty of training deep feedforward neural networks》
Kaiming 初始化:《Delving Deep into Rectifiers : Surpassing Human-......》