投筆從農

Neural Network Design (四)

hsinjungwu — Fri, 09 Apr 2010 08:50:40 +0000

由於昨天破了一場病，所以這週只有介紹了 Performance Surface and Optimum Points。老實說我覺得這章數學概念是非常難的(基本上扯到多變數我就覺得很吃力了。 )，所以我也只能簡單的描述一下，如果有錯那我只能說聲不好意思啦。有心想學的人還是把課本翻翻，然後把微積分後面關於多變數的地方看一下吧。

這章主要是為了 Performance Learning 來鋪路。課本的定義如下

Performance Learning is a learning law, in which the network parameters are adjusted to optimize the performance of the network

也就是說它是要調整參數以達到效能最佳化。上面這句話看起來很清楚，可是仔細想想卻很模糊。什麼叫效能最佳化？這牽涉下面兩件事情

Find a quantitative measure of network performance, called the performance index, which is small when the network performs well and large when the network performs poorly.

Adjust the network weights and biases in order to reduce the performance index.

在這章我們將研究 performance surface。所以如何選擇 performance index 等等會在之後的章節介紹。

首先假設我們的 performance index 為 F(x)，那麼我們可以用泰勒戰神泰勒展開式來估計 F(x)。我們比較感興趣的是 x 是多變數，那 F(x) 的泰勒展開式如下

其中 ∇F(x^*) 是 Gradient at x^* (你可以把它想成在過 x^* 的切平面的法向量)，∇²F(x^*) 是 Hessian Matrix (我不知道可以把它想成什麼 )。另外後面還有提到 Directional Derivatives (我會把它看成是 Gradient 在某個方向的投影)。這方面的東西請容我跳過，因為我真的很弱。有興趣的人可以參考這裡的解說或是這裡提供的工程數學提要吧。

接著是介紹 Minima (極小點)。課本把 Minima 分成三種。

最簡單的莫過於 Global Minima 這個從字面上就知道。

Strong Minima 是指如果 x^* 是 Strong Minima 則存在某個 δ 使得任何落在以 x^* 為圓心，δ 為半徑的 open ball 的非圓心點 y 都會滿足 F(x^*) < F(y)。

而 Weak Minima 跟 Strong Minima 差不多，只要最後的條件改成 ≦ 而且它不是 Strong Minima (也就是說一定還有一點 y≠x^*，但是 F(y) = F(x^*)。)就可以了。

下一段是 Necessary Condition for Optimality。我今天很不自量力的介紹充分必要條件，結果差點死在黑板前。(BTW, 我很喜歡阿共用當且僅當，我一直覺得這會比若且唯若容易理解。)這段其實可以利用當初【微分來判斷極值】的概念來延伸就可以了。總之結論如下

如果 x^* 是 Minima =＞ ∇F(x^*) = ０且 ∇²F(x^*) 是半正定矩陣。
如果 ∇F(x^*) = ０且 ∇²F(x^*) 是正定矩陣 =＞ x^* 是 Strong Minima。

這章還剩下 Quadratic Function 還沒介紹，我想這就下次再說吧，雖然我今天是一口氣教完。最後我覺得我每次上的內容跟 blog 上貼的都不一樣啊！

Neural Network Design (三)

hsinjungwu — Fri, 26 Mar 2010 11:38:58 +0000

這禮拜做了兩次很糟糕的演講，相當對不起台下的聽眾。或許以後我會把這週要報告的東西先放在 blog 上吧！

第一天的主題是 Linear Translation for Neural Networks，我希望我能表達出

對於每一個線性變換(linear transformation)都可以轉譯成一個矩陣(matrix)，而這個矩陣是由基底(basis)來決定的。

我們可以利用 eigenvector 為 column 形成的 matrix 來把原來的矩陣做對角化(diagonalization)，藉此來判斷該 matrix 乘了 n 次後是否會收斂。

不過就台下的反應與我的表達能力，我是失敗了。

第二天的主題是 The Hebb Rule，這篇主要是基於 Donald Hebb 在 1949 年出版的 Organization of Behavior 裡面提到的這段 Hebb’s postulate

When an axons of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased.

它的中文翻譯如下

若一神經細胞 A , 足以興奮另一神經細胞 B, 並經常重複地參與 B 細胞的神經衝動, 其一或二細胞產生質的變化, 則 AB 細胞的聯繫的強度因而增強, 最後光憑 A 細胞的神經衝動便足以激發 B 細胞。

我很抱歉我無法像白居易一樣能給出老嫗能解的解釋。所以體貼的課本又再敘述的更白話一點

If two neurons on either sides of a synapse are activated simultaneously, the strength of the synapse will increase.

在本章我們主要是介紹 Hebb’s rule，所以我們選擇了一個很簡單的架構：Linear Associator。免得我們執著於複雜的架構而逃不出來。

它主要是學習給定的 Q 個 prototype input/output vector pairs {(p_q, t_q)｜q=1, …, Q} ，也就是說我們希望當類神經網路接收 p_q 時，output 值 a_q 會是 t_q。另外我們也希望當我 input 值稍微改變一點點，output 值也只會稍微改變，這有點像是我們以前在證明連續函數時玩 δ-ε 的感覺。

好吧，上面說了一堆屁話。但是重點還是我們要如何用 Hebb’s Rule 。我們利用課本重新敘述的 Hebb’s postulate 那段(本文中紅色底線文字)以及一點基本常識知道每個 input vector p_q 的第 j 個位置 p_jq 與 output a_q 的第 i 個位置 a_iq 中間牽連的 weight 是 W_ij，所以我們可以得到

不過在這一章是以 supervised learning 為主所以我們把 a_q 用 t_q 取代，而且設定 f_i 與 g_j 為 identical function for all i, j 以及 learning rate alpha(a positive constant) 為 1。於是就變成下面的形式。

如果我們初始的 weight matrix 為零矩陣，而且跑完全部Ｑ個 training data 後我們可以得到下面的方程式

接下來我們可以針對 {p_q｜q=1, …, Q} 彼此是否 orthonormal，如果是，則 output 值 a_q 會是 t_q ，這個證明很簡單，跳過。如果不是則會有誤差，所以我們用 Pseudoinverse Rule 來修正 weight matrix，方法是計算 T-A=T-WP 的 Frobenius norm。基於這篇文章已經太長了，所以就看下面的概述吧，如果不明白就翻書吧。

最後一段要說的不是 application 也不是 variations of Hebbian Learning 而是 bias 的加入。這時我們把原來的 p 增加一個維度改成向量 p’ = [P, 1]，接著利用之前的方法來得到 W’ = [W, b]。之所以會提這個方法是因為我之前 K 書時也看過這個手法，我這個沒見過市面的鄉巴佬覺得很妙，所以特地野人獻曝。

Neural Network Design (二)

hsinjungwu — Mon, 22 Mar 2010 07:17:15 +0000

沒想到居然有(二)！

這禮拜主要是講 Perceptron Learning Rule 跟簡單的線性代數。線性代數我帶大家回憶了什麼叫 Gram–Schmidt process、基底變換及其他基本的東西。而課堂上有人叫我舉個 Infinitely many dimensions 的例子，不過線性代數很弱的我裝死跳過。

而說到 Perceptron Learning Rule 就要先提什麼是 Learning Rules 呢？課本給了以下的定義

A procedure for modifying the weights and biases of a net work.

而 Perceptron Learning Rule 我就用以下的圖來簡單介紹，如果有人看不懂就去翻書吧。首先我們有下面三個點，我們最終的目的是找一條分隔線平面分成白色跟灰色區域，使得藍點在白色區域而紅點在灰色區域。

首先我們就隨便畫兩條黃色的線在平面上，虛線是分格線，實線跟虛線垂直，所以你可以把實線看成是虛線的握把。我們接下來就是要旋轉握把，讓虛線變成我們最後要的分隔線。

接著檢查編號 1 的點，你發現他跑錯地方了，於是你就旋轉把手，變成下面這樣。

接著檢查編號 2 的點，你發現他還是跑錯地方了，於是你再次旋轉把手，變成下面這樣。

然後檢查編號 3 的點，結果還是跑錯地方，於是又旋轉把手，變成下面這樣。

這時候你就要再次檢查編號 1 的點有沒有錯，如果有錯就旋轉，沒錯就不轉，按照編號順序直到所有點都落在正確區域。

接著就開始牽涉要怎麼轉，這裡我就打算用向量來說了。我們把實線都當成向量，虛線不管他。從圖形知道黃色向量要逆時針旋轉。所以我們採用了這個方法：【把黃色向量加上編號 1 的點的向量(即藍色向量)變成綠色向量】。而按照【虛線要垂直實線】的法則，所以黃色虛線也就變成綠色虛線。

變成

接著從圖形知道綠色向量要順時針旋轉。所以我們採用了：【把綠色向量減去編號 2 的點的向量(即紅色向量)變成紫色向量】。而按照【虛線要垂直實線】的法則，所以綠色虛線也就變成紫色虛線。

變成

接著從圖形知道紫色向量要逆時針旋轉。所以我們採用了：【把紫色向量加上編號 3 的點的向量(即紅色向量)變成棕色向量】。而按照【虛線要垂直實線】的法則，所以紫色虛線也就變成棕色虛線。

變成

接著以此類推繼續轉，轉到 ok 為止。在本例中這時已經轉好了。

接著如果再把虛線扯進來以及把上面講的東西稍微數學一點的話，虛線就是 hyperplane (超平面)，實線就是對應的 normal vector (法向量)。如果還要再更深更詳細就翻書吧，因為我手酸了。

Neural Network Design (一)

hsinjungwu — Wed, 10 Mar 2010 09:13:20 +0000

這篇主要是要報告我這禮拜會上的內容，投影片我放在這裡，至於下面的內容會充斥髒話與廢話，所以有心要學類神經網路的人請跳過。還有我也不知道還會不會有「Neural Network Design (二)」？畢竟我的「屏東車站之旅(2)」到現在拖了快兩年還沒有生出來。

這張圖是生物神經元，西元 2000 年以前認識我的人都知道我生物爛到靠盃，所以我也就簡單說吧。如果有問題，請找強者我同學 papa 吧！

神經元用 Dendrites 接收謎樣的信號 p，而這信號經過了 Cell Body 發生了神奇的變化 f 後轉變成新的信號 a 再透過 Axon 傳遞給另一個神經元的 Dendrites。而 Synapse 則是 Dendrites 和 Axon 的結合點。而神經元的排列跟 Synapse 的強度 w 則確立了神經網路的功能。

結果有人就利用這個想法搞出了下圖，害得我現在要教類神經網路。

當然啦，這張圖只是 trivial case，反正最後一定會變成這種亂七八糟又基掰的東西。

嚇完之後再告訴你，我們可以用線性代數把這東西變成簡單的矩陣與向量相乘，然後你就覺得幹他老師的線性代數真神。

接著課本就給個蘋果跟橘子的實例來介紹三個 Neural Networks : Perceptron，Hamming Network 跟 Hopfield Net。由於~~我懶得打了~~篇幅有限，我只能告訴你大概是這樣，如果不明白就去翻書吧！你設定好蘋果與橘子的 prototype vector，然後第一個會讓蘋果的 output 值是1, 橘子的 output 是 -1，然後你隨便丟個東西進去，最後 output 出來一個值，你就能知道這東西究竟是蘋果還是橘子。當然啦你也可以丟西瓜進去，不過它應該會崩潰吧。第二個說穿了你隨便丟個東西進去，然後在第一層算出它跟蘋果跟橘子的 Hamming Distance，第二層找出它跟誰距離最近，然後就說它是那一個。但是如果距離一樣近的話就哭哭了。最後一個就是你隨便丟個東西進去，然後 output 出來的 vector 只會是蘋果或橘子的 prototype vector，然後你就能判斷它是撒小了。