ML

Sigmoid Loss

Posted by keming on August 22, 2017

sigmoid与softmax

  • 这两个东西拿到一起比较基本就是它们在最后一层做分类了。
  • 对于二分类,我们当然会首先想到sigmoid,大名鼎鼎的logistic回归嘛!一旦类别超过2,我们也很快会想到softmax。事实上,对于softmax来说,二分类同样可以做,无非是个二元的one-hot标签。
  • 从效果来说,两者相差不大,因为原理上都是相似的,softmax甚至可以看做是sigmoid的推广。

sigmoid最适配的loss

  • 很久以前还有人用均方误差的,不过现在都改成了交叉熵。原因很简单,交叉熵更适合梯度下降!不过在深度的网络中,sigmoid也用的很少了。
  • 至于原因,参照这个推导,从求导的角度阐述了这个问题 交叉熵代价函数

至于softmax

  • 因为交叉熵是针对离散分布的,之前我一直没太明白对于one-hot它怎么计算,还傻傻的以为类别取0,1,2,……,然后一个个乘以预测概率的对数再加和。
  • 这个想法有点问题,直接上代码比较好。 tensorflow(尊重知乎劳动成果)