神经网络的优化景观:为什么非凸损失函数没有想象中可怕

2014年,Yann Dauphin和同事们在NIPS上发表了一篇引起广泛关注的论文。他们发现,在训练深度神经网络时,真正阻碍优化的不是我们一直担心的"局部最小值",而是另一种被忽视已久的东西——鞍点。这个发现彻底改变了我们对神经网络优化的理解。 ...

17 min · 8098 words