上一篇有提到关于如何在向量中求梯度下降的公式,
因此此篇要来讲为什么要向量v跟f(x,y)的偏微分作内积:
首先我们已经知道内积可以有两种算法:
假设现在有 A[a1,a2] 和 B[b1,b2] 要作内积,
在这边我们要使用的是第二种方式,
首先假设我们知道公式是,
也就是v跟f(x,y)的偏微分作内积,
因此把它展开看可以知道
v在这边不重要,因为v只是代表我们在那个向量v带入时所得到的梯度下降,所以这边就先假设他是1,可以得到:
现在可以知道当我们要求出梯度上升的极大值的话,唯一的变数就是cosΘ,而当 Θ = 0°时会有最大值cosΘ = 1,
也就是说当向量v跟f(x,y)重叠时,会有最大的上升值。
相反的,当我们要校正它并测量梯度下降的时候, Θ = 180°时会有最大值cosΘ = -1,
也就是说当向量v向量v跟f(x,y)相反方向时,会有最大的下降值。
于是当我们要透过梯度下降找到最小值的Error Function时,便会採用,
也就是透过对E(w,b)作偏微分,找到error function自己的梯度关係曲线。