從現(xiàn)在起開始陸陸續(xù)續(xù)寫一些吧,大概的計(jì)劃是將Pattern Recognition and Machine Learning的學(xué)習(xí)體會(huì)寫一個(gè)專題,然后繼續(xù)deep learning方面的論文學(xué)習(xí),當(dāng)然也有編程方面的東西,希望能夠好好堅(jiān)持。下面是近期看的層級(jí)實(shí)時(shí)網(wǎng)絡(luò)(HTM)的總結(jié),HTM也是deep model的一種。這部分內(nèi)容基本是本人脫離論文進(jìn)行的回顧,如果有錯(cuò)誤,各位看官還望原諒及指正,謝謝!
PART ONE: OUTLINE
皮質(zhì)學(xué)習(xí)算法
Cortical Learning Algorithm
摘要
Abstract
緒論
Introduction
1、皮質(zhì)學(xué)習(xí)算法的歷史沿革
2、皮質(zhì)學(xué)習(xí)算法的主要思想
3、報(bào)告的主要框架
George博士論文中的層級(jí)實(shí)時(shí)記憶算法
HTM: version I in George’s PhD thesis
1、整體框架
2、識(shí)別
3、學(xué)習(xí)
4、總結(jié)
Numenta白皮書中的層級(jí)實(shí)時(shí)記憶算法
HTM: version II in Numenta’s White Paper
1、整體框架
2、Sparse Distributed Representation
3、Spatial Pooler
4、Temporal Pooler
5、與Version I的內(nèi)在聯(lián)系與主要區(qū)別
6、總結(jié)
層級(jí)實(shí)時(shí)記憶算法的實(shí)現(xiàn)
The implementation of HTM
1、Encoder
2、Spatial Pooler
3、Temporal Pooler
4、CLA Classifer
5、總結(jié)
總結(jié)與展望
參考文獻(xiàn)
PART TWO: REPORT
皮質(zhì)學(xué)習(xí)算法
Cortical Learning Algorithm
摘要
Abstract
皮質(zhì)學(xué)習(xí)算法是一種對(duì)新大腦皮質(zhì)層結(jié)構(gòu)與功能運(yùn)作進(jìn)行人工模擬的算法。本篇報(bào)告主要闡述了皮質(zhì)學(xué)習(xí)算法的發(fā)展概況,核心算法(Hierarchical Temporal Memory: HTM)以及算法中的關(guān)鍵技術(shù)。通過(guò)對(duì)HTM算法各設(shè)計(jì)細(xì)節(jié)的分析,對(duì)HTM算法的演變進(jìn)行學(xué)習(xí)和思考,加強(qiáng)對(duì)算法核心內(nèi)容,如空間模式與時(shí)間模式的提取,稀疏離散表征等的理解。同時(shí),對(duì)開源代碼及相關(guān)報(bào)告材料的學(xué)習(xí),加強(qiáng)對(duì)皮質(zhì)學(xué)習(xí)算法細(xì)節(jié)的把握。
緒論
Introduction
1、皮質(zhì)學(xué)習(xí)算法的歷史沿革
2、皮質(zhì)學(xué)習(xí)算法的主要思想
3、報(bào)告的主要框架
George博士論文中的層級(jí)實(shí)時(shí)記憶算法
HTM: version I in George’s PhD thesis
層級(jí)實(shí)時(shí)記憶算法是模擬新皮層大腦結(jié)構(gòu),試圖模仿起功能的算法。首先,層級(jí)實(shí)時(shí)算法采用了層級(jí)結(jié)構(gòu),HTM算法由低層級(jí)到高層級(jí)依次提取low-level到high-level的不變特征,或者說(shuō)更高層是低一層不變表示的重新組合。如果能夠在底層級(jí)學(xué)習(xí)到事物的一些最基本的模式,再通過(guò)高層級(jí)進(jìn)行再組合,那么可以通過(guò)學(xué)習(xí)某些物體的模式時(shí)而達(dá)到將新事物的基本模式也包含的情況,即有較高的泛化能力。同時(shí),通過(guò)層級(jí)結(jié)構(gòu),底層級(jí)學(xué)習(xí)一些low-level的不變特征或者子模式后,直接可以輸入到高層進(jìn)行學(xué)習(xí),高層級(jí)不用再對(duì)low-level的特征或者模式進(jìn)行再學(xué)習(xí),提高學(xué)習(xí)訓(xùn)練的效率,也減小了存儲(chǔ)空間。
HTM算法另一個(gè)最突出的特點(diǎn)是引入了時(shí)間模式。之前很多deep model的層級(jí)結(jié)構(gòu)大多只關(guān)注層級(jí)之間的連接(connections),這樣使得他們能夠提取較好的空間模式;但是他們沒(méi)有考慮到層級(jí)內(nèi)部節(jié)點(diǎn)的連接,這種連接能夠?qū)W習(xí)到序列模式在連續(xù)時(shí)間內(nèi)的轉(zhuǎn)移關(guān)系,進(jìn)行序列記憶,在表征物體的空間模式集有交集的時(shí)候,通過(guò)時(shí)間相近,模式相似的準(zhǔn)則可以增加物體識(shí)別分類的精度。下面,通過(guò)參考David的技術(shù)報(bào)告[]與George的博士論文[],將對(duì)George博士論文的HTM方面的理論進(jìn)行詳述。
1、整體框架
如下圖1為一個(gè)三層的HTM示意圖,方塊表示節(jié)點(diǎn)?梢钥闯觯HTM具有樹狀的層級(jí)網(wǎng)絡(luò)結(jié)構(gòu)。高一層一個(gè)節(jié)點(diǎn)與其相鄰低一層的多個(gè)節(jié)點(diǎn)相連接, HTM的第一層節(jié)點(diǎn)直接與輸入相連(可以是overlapping的)。而某一個(gè)節(jié)點(diǎn),不斷向下一層回溯,到輸入,他所處理的輸入范圍就是其感受域,如level one中的每個(gè)節(jié)點(diǎn)的感受域是1,level two的是2,level three的是4。
節(jié)點(diǎn)是HTM中記憶與預(yù)測(cè)的基本單元。在節(jié)點(diǎn)中,主要存有三種數(shù)據(jù),C(coincidences的集合), G(temporal groups的集合,每個(gè)group實(shí)際上是coincidences的集合),transition probability matrix(為每個(gè)group中各個(gè)coincidence之間的轉(zhuǎn)移概率組成的矩陣)。
每一個(gè)處于中間層(除開第一層與最后一層)節(jié)點(diǎn),都有唯一一個(gè)父節(jié)點(diǎn),與多個(gè)子節(jié)點(diǎn)。HTM對(duì)空間模式的提取,依賴的是父節(jié)點(diǎn)對(duì)各子節(jié)點(diǎn)的子模式的pooling,而時(shí)間模式與序列記憶的實(shí)現(xiàn),依賴于節(jié)點(diǎn)中不同的temporal groups以及其各coincidences組成的markov chains。通過(guò)記憶不同order的markov chains,可以由一個(gè)coincidences往前或者后推知另外coincidences發(fā)生的可能性,從而實(shí)現(xiàn)序列記憶。而每個(gè)group也是由這種coincidences之間轉(zhuǎn)移概率最大化分類,以獲得時(shí)間相近,模式相似的結(jié)果。
對(duì)于一個(gè)HTM模型,其識(shí)別的整體流程是:當(dāng)某一層各節(jié)點(diǎn)分別接收來(lái)自其子節(jié)點(diǎn)的輸入時(shí),開始進(jìn)行識(shí)別,其結(jié)果作為父節(jié)點(diǎn)的部分輸入。而對(duì)于一個(gè)HTM模型的訓(xùn)練學(xué)習(xí),首先要對(duì)最低層進(jìn)行訓(xùn)練,訓(xùn)練完畢后,再對(duì)高一層進(jìn)行訓(xùn)練,而輸入來(lái)自低層按識(shí)別流程處理得到的結(jié)果。下面幾節(jié),將從單個(gè)節(jié)點(diǎn)的訓(xùn)練與識(shí)別進(jìn)行展開介紹。
圖1 HTM結(jié)構(gòu)示意圖
2、學(xué)習(xí)
在學(xué)習(xí)階段,大致分為3步,對(duì)新模式進(jìn)行記憶,轉(zhuǎn)移概率矩陣的計(jì)算,對(duì)模式進(jìn)行分組獲取temporal groups。
I,模式進(jìn)行記憶。當(dāng)一個(gè)節(jié)點(diǎn)接收到一個(gè)新的模式時(shí),首先是將輸入模式與節(jié)點(diǎn)中已存在的模式進(jìn)行比較(如,比較距離),如果該輸入與某個(gè)存在的模式足夠近,那么就激活該模式。如果沒(méi)有找到足夠近的模式,那說(shuō)明這個(gè)輸入模式是一個(gè)新的模式,將他存入模式集中,以待后用。這就是模式的記憶。
II,轉(zhuǎn)移概率矩陣的計(jì)算。當(dāng)一個(gè)模式被激活,回顧之前激活的模式,將矩陣中對(duì)應(yīng)兩者轉(zhuǎn)移關(guān)系的位置自增1。當(dāng)然,HTM也可以存儲(chǔ)多步的轉(zhuǎn)移,回顧數(shù)步以前被激活的模式,存儲(chǔ)其轉(zhuǎn)移關(guān)系。在所有模式輸入完畢,對(duì)轉(zhuǎn)移矩陣每行或每列(視存儲(chǔ)情況定)進(jìn)行歸一化,得到轉(zhuǎn)移概率。
III,temporal groups的計(jì)算。根據(jù)轉(zhuǎn)移關(guān)系的統(tǒng)計(jì),可以知道哪些模式轉(zhuǎn)移相對(duì)頻繁,而哪些模式之間轉(zhuǎn)移概率相對(duì)較大。Temporal groups的計(jì)算的原則就是基于此,選取一些轉(zhuǎn)移較頻繁的模式作為種子點(diǎn),從該種子點(diǎn)向與其轉(zhuǎn)移概率最大的點(diǎn)進(jìn)行生長(zhǎng),達(dá)到一定數(shù)目停止生長(zhǎng),從而實(shí)現(xiàn)temporal groups的分類。而每個(gè)group以及其coincidences之間組成的markov chain是模型序列記憶的關(guān)鍵。
需要注意的是,在訓(xùn)練完畢一層之后,再訓(xùn)練更高層時(shí),首先利用識(shí)別流程,將前些已經(jīng)訓(xùn)練好的層級(jí)的結(jié)果輸出到更高層,進(jìn)行學(xué)習(xí)訓(xùn)練,但是這里,一般將concatenation的各輸入(子節(jié)點(diǎn)的輸出)中最大值位置設(shè)為1,而其他位置置為0(David處理方法是每個(gè)coincidences為#(子節(jié)點(diǎn)數(shù)目)維向量,每個(gè)元素存的是最大值位置索引,感覺(jué)這種省存儲(chǔ)空間)。這實(shí)質(zhì)上是一種稀疏化的處理,之后在介紹Numenta里面的HTM與現(xiàn)在介紹的HTM的聯(lián)系和區(qū)別時(shí)還會(huì)提及。
3、識(shí)別
在識(shí)別階段,假設(shè)每個(gè)節(jié)點(diǎn)的C,G,transition probability matrix已經(jīng)訓(xùn)練好。一個(gè)節(jié)點(diǎn)的輸入過(guò)程一般分為兩步,首先計(jì)算對(duì)當(dāng)前輸入,提取所有coincidences對(duì)該輸入的certainty;其次是計(jì)算對(duì)當(dāng)前輸入,提取所有groups對(duì)該輸入的certainty。
I,提取coincidences的certainty。對(duì)于第一層的節(jié)點(diǎn),這種certainty通常是通過(guò)考量輸入與模式之間的近似程度來(lái)實(shí)現(xiàn),而對(duì)更高層,coincidences里面存的是各個(gè)子節(jié)點(diǎn)哪些temporal groups共同出現(xiàn),所以這些子節(jié)點(diǎn)的temporal groups對(duì)該輸入的certainty共同組成該coincidence對(duì)該輸入的certainty。
II,提取groups的certainty。同理,groups里面是指哪些coincidences會(huì)共同出現(xiàn),一個(gè)groups的certainty由這些coincidences的certainty共同組成(都是概率相乘)。
III,關(guān)于識(shí)別的一些思考
考慮上面公式(來(lái)自George論文,公式含義不細(xì)說(shuō)),在序列記憶的情況下,實(shí)際上每個(gè)group的certainty不僅僅考慮了他包含的coincidences對(duì)他的貢獻(xiàn),同時(shí)通過(guò)序列轉(zhuǎn)移情況,能夠知道某個(gè)coincidence在前面已有序列條件下,現(xiàn)在出現(xiàn)的概率,這種序列記憶能夠更好地反映出一個(gè)coincidence對(duì)某個(gè)輸入的certainty。當(dāng)然,在David的報(bào)告中,大多數(shù)情況下以下圖中公式(4.4)為基本,沒(méi)有考慮多步的轉(zhuǎn)移。
考慮下面示意圖2(參考David論文),一個(gè)類別可能主要有部分輸出節(jié)點(diǎn)中coincidences的certainty來(lái)確認(rèn),而這些coincidences只由部分子節(jié)點(diǎn)的groups共同生成,如此類推下去,可以知道一個(gè)類別的模式由部分最基本的模式組合表達(dá),就印證了當(dāng)系統(tǒng)學(xué)習(xí)到一些基本模式后,對(duì)于具有這些基本模式的事物具有泛化能力。
圖2 HTM泛化能力的示意解釋,見正文
注意這里將所有的模式對(duì)輸入的certainty都計(jì)算在內(nèi),這與訓(xùn)練中只激活一個(gè)模式是有區(qū)別的,在訓(xùn)練中如果將所有模式激活就無(wú)法得到轉(zhuǎn)移概率矩陣了。同樣這與Numenta白皮書里的cell激活方式也稍有不同,下面會(huì)再講。
4、總結(jié)
這一部分主要對(duì)George文章中的HTM算法進(jìn)行基本的總結(jié)。通過(guò)對(duì)于兩篇文章的綜合,可以對(duì)于該HTM模型的所有細(xì)節(jié)具有比較清楚的認(rèn)識(shí),包括如何處理圖像(如按zig-zag對(duì)圖像序列化,圖像像素或者子塊或者對(duì)像素鄰域提取的特征如何輸入到節(jié)點(diǎn))等都能有具象的認(rèn)識(shí)。但這里只是回顧了一些主要的流程。核心點(diǎn):通過(guò)高層對(duì)低層模式的再組合,提升系統(tǒng)的泛化能力;每個(gè)group實(shí)際上是對(duì)序列的記憶,轉(zhuǎn)移概率大小體現(xiàn)了模式之間在時(shí)間上相近程度。
Numenta白皮書中的層級(jí)實(shí)時(shí)記憶算法
HTM: version II in Numenta’s White Paper
該HTM版本[10]在George博士論文的版本上進(jìn)行了一些修改與改進(jìn)工作,在新版本中撤除了節(jié)點(diǎn)的概念,更多地去模擬新皮質(zhì)的結(jié)構(gòu),引入了區(qū)域,細(xì)胞,樹突,突觸等生物學(xué)領(lǐng)域的概念。但是最基本的原則是沒(méi)有變化的,就是層級(jí)結(jié)構(gòu),記憶-預(yù)測(cè)等。當(dāng)然,新版本里面還引入了稀疏離散表征(sparse distributed representation)的概念。
1、整體框架
在新版HTM中,層與區(qū)域的概念相似,如圖3中為一個(gè)層級(jí)(區(qū)域:region)的示意圖,該層級(jí)接收其下一層的信息,處理后,輸出送至更高層進(jìn)行處理。每層有許多列(column)組成,形成二維平面(非必須),而每個(gè)列中包含有多種細(xì)胞(cell)組成。在每個(gè)列與輸入之間,有一個(gè)樹突(dendrite segment),它有許多潛在突觸(synapse),可能會(huì)與輸入中的部分子集相連接;而每個(gè)細(xì)胞有許多樹突,每個(gè)樹突也有許多潛在突觸,可能與其他細(xì)胞進(jìn)行橫向連接。在圖3中沒(méi)有顯示出來(lái)。
對(duì)于HTM的識(shí)別、學(xué)習(xí)都分為兩個(gè)流程,首先對(duì)輸入進(jìn)行稀疏離散表征,完成spatial pooling(sp),學(xué)習(xí)階段會(huì)對(duì)突觸的權(quán)值進(jìn)行更新;其次,基于spatial pooler的結(jié)果,進(jìn)行橫向信息傳遞、預(yù)測(cè),完成temporal pooling(tp),學(xué)習(xí)階段也會(huì)對(duì)突觸的權(quán)值進(jìn)行更新。Temporal pooling的輸出作為更高層的輸入,重復(fù)剛才的過(guò)程。識(shí)別和學(xué)習(xí)沒(méi)有明顯界限,在識(shí)別階段可以將學(xué)習(xí)的部分功能關(guān)閉即可。下面小節(jié)將以一個(gè)區(qū)域?yàn)槔瑢?duì)HTM的識(shí)別與學(xué)習(xí)進(jìn)行比較詳細(xì)地介紹。
注:需要特別指出的是,每個(gè)column如果被激活(之后會(huì)解釋什么是激活狀態(tài)),那么它是能夠表征模式的部分含義的,對(duì)于一個(gè)輸入模式,就被一組稀疏的活躍column進(jìn)行有效表征。但是我們知道,“ABCD”與“EBCF”中的模式B與C是不一樣的,那么在HTM中如何實(shí)現(xiàn)不同上下文的表征呢?HTM中,每個(gè)column擁有很多細(xì)胞,在不同的上下文時(shí),激活的細(xì)胞是不一樣的,這樣就達(dá)到了能夠表征不同上下文中相同內(nèi)容的目的。
圖3 HTM一個(gè)區(qū)域(層級(jí))的結(jié)構(gòu)
2、Sparse Distributed Representation
在介紹sp與tp之前,首先要對(duì)稀疏離散表征進(jìn)行描述。稀疏離散表征是HTM的重要基礎(chǔ),序列記憶等都基于稀疏離散表征。稀疏離散表征是將自然界語(yǔ)言(如圖像,文本,音頻等)轉(zhuǎn)換為二進(jìn)制序列,而且是稀疏的。稀疏離散表征的每一個(gè)活躍(值為1)的bit都能表達(dá)模式的部分含義,但是僅僅一個(gè)bit又是不夠的,只有整體才能表達(dá)一個(gè)完整的模式。稀疏離散表征具有很多很好的性質(zhì):
I,在比較時(shí),只要兩個(gè)不同的稀疏離散表征具有一些相同的活躍bits,那么這兩個(gè)稀疏離散表征表達(dá)的模式具有一定的相似性。
II,在存儲(chǔ)時(shí),可以對(duì)稀疏離散表征進(jìn)行subsampling,而能較好地保留其表達(dá)含義。這樣節(jié)省了存儲(chǔ)空間。
III,不同的稀疏離散表征做OR運(yùn)算后,為這些稀疏離散表征的組合,如果一個(gè)新的稀疏離散表征的活躍的bits來(lái)自于這個(gè)組合,那么可以肯定他在這個(gè)集合中的membership。一個(gè)有趣的現(xiàn)象是,當(dāng)訓(xùn)練了序列”ABC”“ABD”后,如果輸入“AB”,它所進(jìn)行的預(yù)測(cè)就是“C”與“D”的組合。下面我將介紹如何得到稀疏離散表征。
IV,正是因?yàn)橐粋(gè)bit可能只表示非常少的模式信息,所以對(duì)噪聲不敏感,有些許bits不同的兩個(gè)模式可能也是相似的。
3、Spatial Pooler
首先,對(duì)于區(qū)域中的每個(gè)列(column)都有一個(gè)receptive field,來(lái)接收輸入中的子集,其樹突上的活躍突觸(權(quán)值大于一定閾值,初始化時(shí)權(quán)值在閾值附近進(jìn)行隨機(jī)取值)將與輸入的bits連接,如果連接到活躍bit(=1)的活躍突觸數(shù)目大于一定閾值時(shí),認(rèn)為該column可以作為活躍column的備選。
然后,為了達(dá)到稀疏表征的目的,不希望太多的column能夠激活,所以在一定的抑制半徑(通過(guò)columns的平均receptive field計(jì)算)內(nèi),只有前n(如n=10,當(dāng)然也可以用總數(shù)的百分比)才能被激活。這樣,將所有滿足條件的columns激活,得到的就是輸入的稀疏離散表征。
在學(xué)習(xí)階段,需要更新權(quán)值,一般希望特定的突觸對(duì)于特定的輸入具有響應(yīng),這樣達(dá)到不同模式具有不同稀疏表征的效果,所以使得活躍column的潛在突觸中,所有連接活躍bits(=1)的突觸權(quán)值自增,而連接不活躍bits(=0)的突觸權(quán)值自減。其他column的突觸權(quán)值不變。
當(dāng)然,在sp中,有許多細(xì)節(jié)需要注意,比如說(shuō)HTM希望所有的columns都要被用來(lái)進(jìn)行一定模式的表征,所以那些因?yàn)楦采w值(overlap,就是連接活躍bits的活躍突觸數(shù)目)長(zhǎng)期不夠,與那些因?yàn)楦采w值長(zhǎng)期不能進(jìn)入抑制半徑內(nèi)前列的columns突觸權(quán)值進(jìn)行boosting,即增加其權(quán)值。
4、Temporal Pooler
當(dāng)輸入用稀疏離散表征后,得到活躍的columns,然后要進(jìn)行temporal pooling。主要分為以下幾步:
首先,要對(duì)columns里面的細(xì)胞進(jìn)行激活。細(xì)胞的激活分為兩種情況,第一種,區(qū)域之前沒(méi)有做出預(yù)測(cè),那么,對(duì)于sp得到的激活columns中所有細(xì)胞進(jìn)行激活;第二種,區(qū)域之前已經(jīng)做出了預(yù)測(cè),那么,在每個(gè)活躍column中判斷是否有細(xì)胞在前一時(shí)刻被正確預(yù)測(cè),如果有,僅僅激活該細(xì)胞,說(shuō)明符合當(dāng)前上下文環(huán)境,如果沒(méi)有,那么將這一列的所有細(xì)胞進(jìn)行激活,說(shuō)明我還不清楚上下文環(huán)境是什么,所以所有上下文環(huán)境都有可能。而其他沒(méi)有被正確預(yù)測(cè)或者沒(méi)有再激活columns中的細(xì)胞保持或者變成不活躍。
其次,要進(jìn)行預(yù)測(cè)。對(duì)于沒(méi)有被激活的細(xì)胞,觀察其連接的樹突,如果該樹突上連接活躍細(xì)胞的活躍突觸數(shù)目大于一定數(shù)目時(shí),我們認(rèn)為該樹突被激活,然后使得其連接的細(xì)胞被激活,當(dāng)一個(gè)細(xì)胞存在多個(gè)樹突被激活時(shí),進(jìn)行OR運(yùn)算。
在學(xué)習(xí)階段,為了防止細(xì)胞過(guò)多的活躍突觸,從而過(guò)多進(jìn)行預(yù)測(cè),HTM一般希望每個(gè)活躍column中只有一個(gè)細(xì)胞進(jìn)行學(xué)習(xí),在被正確預(yù)測(cè)了的細(xì)胞當(dāng)中,首先計(jì)算該細(xì)胞通過(guò)活躍突觸連接的之前處于學(xué)習(xí)狀態(tài)的細(xì)胞數(shù)目,當(dāng)其大于一定閾值時(shí),進(jìn)入學(xué)習(xí)狀態(tài);而對(duì)于沒(méi)有被正確預(yù)測(cè)的細(xì)胞,選取連接活躍突觸數(shù)目最多的細(xì)胞進(jìn)入學(xué)習(xí)狀態(tài)。對(duì)進(jìn)入學(xué)習(xí)狀態(tài)的細(xì)胞,將其活躍突觸權(quán)值自增,其他突觸權(quán)值自減。而對(duì)于一些之前被預(yù)測(cè),當(dāng)前沒(méi)有被預(yù)測(cè)的(沒(méi)有激活的)細(xì)胞,說(shuō)明之前預(yù)測(cè)有問(wèn)題,所有該細(xì)胞連接的突觸自減。對(duì)于被正確預(yù)測(cè)的細(xì)胞,我們希望觀察它們是否做出了正確的預(yù)測(cè),對(duì)于他們權(quán)值的強(qiáng)化更新,所以先存在隊(duì)列中,待到前進(jìn)一定的time step再進(jìn)行處理。可以看出,如果一個(gè)細(xì)胞被正確預(yù)測(cè),HTM會(huì)強(qiáng)化這種前后細(xì)胞的轉(zhuǎn)移關(guān)系,強(qiáng)化記憶序列關(guān)系。
注:在文章中,對(duì)預(yù)測(cè)的性質(zhì)進(jìn)行了很多解釋。一個(gè)重要的點(diǎn)就是預(yù)測(cè)使得層級(jí)的輸出變得更加穩(wěn)定,這是因?yàn)檩斎肽J娇赡苓B續(xù)變化,但是由于存在序列記憶,HTM會(huì)對(duì)輸出進(jìn)行一步或者多步預(yù)測(cè),變化的輸入可能只導(dǎo)致部分輸出發(fā)生變化,而其中正確預(yù)測(cè)而激活的細(xì)胞,以及那些相同的多步預(yù)測(cè)使得輸出變化比較小。當(dāng)然更高層的輸出更加穩(wěn)定,在上一個(gè)版本的HTM里也存在,因?yàn)樽兓哪J,可能是同屬于一個(gè)markov chain,一個(gè)group,所以在更高一層就有相似的輸出了。
5、與Version I的內(nèi)在聯(lián)系與主要區(qū)別
在這里,主要分析一下第二章與第三章所介紹的兩個(gè)HTM版本有什么內(nèi)在的聯(lián)系,又存在如何的區(qū)別。
I,結(jié)構(gòu)。首先層級(jí)結(jié)構(gòu)相似自不必再說(shuō)。我們看micro-structure。一乍看,前一個(gè)版本里面的存儲(chǔ)記憶的基本結(jié)構(gòu)是節(jié)點(diǎn),這里是column。實(shí)際上兩者是很相似的,這里的columns相當(dāng)于之前的coincidences,而column中的細(xì)胞就是這個(gè)coincidences的不同狀態(tài),就比如之前的coincidences可以通過(guò)state-splitting劃分到不同的markov chain一樣。而細(xì)胞之間的突觸,實(shí)際上是group中的markov chain。如下圖4,是將一個(gè)節(jié)點(diǎn)的C,G轉(zhuǎn)換為各種細(xì)胞之間信息的傳遞的結(jié)構(gòu),這明顯地揭示了與新版本的相似之處。區(qū)別在于,group這個(gè)概念不再有,隱含在了稀疏離散表征里面,而且在新版本里面,突觸的連接可以說(shuō)也是稀疏的,二值化后的突觸權(quán)值使得各細(xì)胞間不會(huì)所有信息都進(jìn)行傳遞。
圖4 來(lái)自于George博士論文
II,功能。結(jié)構(gòu)的相似性決定了功能上也基本相似,序列記憶一個(gè)通過(guò)突觸權(quán)值實(shí)現(xiàn),一個(gè)通過(guò)markov chain來(lái)實(shí)現(xiàn)。稍微不同的是,新版本對(duì)輸入進(jìn)行了稀疏離散表征,而在老版本中,如圖中,y會(huì)計(jì)算所有coincidences的certainty。這也是兩個(gè)版本的最大區(qū)別:稀疏離散表征。
6、總結(jié)
在這章,主要介紹了Numenta白皮書中介紹的HTM模型,對(duì)稀疏離散表征,空間沉積池(spatial pooler),時(shí)間沉積池(temporal pooler)進(jìn)行了介紹,可以看出其對(duì)空間模式的提取是通過(guò)空間沉積池進(jìn)行稀疏離散表征實(shí)現(xiàn)的,不同的column具有不一樣的表達(dá)部分模式的含義,不同的組合就是表征不同的模式;而時(shí)間模式是通過(guò)細(xì)胞橫向間的突觸權(quán)值實(shí)現(xiàn)的,通過(guò)加強(qiáng)前后模式之間的轉(zhuǎn)移權(quán)值,來(lái)實(shí)現(xiàn)對(duì)序列的記憶。該HTM模型除了引入稀疏離散表征,將markov chain,group等概念隱含到突觸權(quán)值上,但是,從實(shí)質(zhì)上與George中的模型沒(méi)有太多的區(qū)別,都為層級(jí)結(jié)構(gòu),都能夠進(jìn)行記憶-預(yù)測(cè)。
層級(jí)實(shí)時(shí)記憶算法的實(shí)現(xiàn)
The implementation of HTM
該部分內(nèi)容還沒(méi)有進(jìn)行完全,希望在之后的工作中逐漸豐富。
1、Encoder
基本思想是當(dāng)給定一個(gè)標(biāo)量用多少個(gè)bits表示,在最小值到最大值的區(qū)間范圍,以及總共輸出多少bits,就能夠根據(jù)在區(qū)間內(nèi)的任意輸入值,根據(jù)其標(biāo)量值所在位置,計(jì)算出輸出中那些bits為1。這樣,在數(shù)值上相近的標(biāo)量,在二進(jìn)制表達(dá)上也比較相似。
對(duì)于二維圖像如何編碼,是一個(gè)比較困難的問(wèn)題,因?yàn)樗擞谢叶却笮”硎疽欢ǖ暮x外,同時(shí)也有像素間上下文的關(guān)系,所以在進(jìn)行二進(jìn)制化時(shí)是一個(gè)比較困難的事情。這部分需要繼續(xù)學(xué)習(xí)。
2、Spatial Pooler
3、Temporal Pooler
4、CLA Classifer
5、總結(jié)
總結(jié)與展望
通過(guò)學(xué)習(xí)Numenta的白皮書可以知道,現(xiàn)發(fā)布的HTM模型還只是利用單層去解決問(wèn)題,當(dāng)然實(shí)現(xiàn)多層應(yīng)該比較簡(jiǎn)單。同時(shí)該層主要是模擬了新皮質(zhì)的第3層功能,也沒(méi)有反饋,行為控制等等功能,以后的工作應(yīng)該是逐步完善HTM,使得其結(jié)構(gòu)功能盡可能的相似。
通過(guò)學(xué)習(xí),對(duì)于HTM的發(fā)展演變,模型的理論,結(jié)構(gòu),功能,如何進(jìn)行學(xué)習(xí),識(shí)別,都有比較好的理解。但是還不足以發(fā)現(xiàn)文章的問(wèn)題,我覺(jué)得自己的工作之后是要不斷通過(guò)進(jìn)行實(shí)驗(yàn),來(lái)印證理論的同時(shí),發(fā)現(xiàn)HTM的問(wèn)題在哪里,所以下一步的工作重點(diǎn)將傾向于此。同時(shí),我覺(jué)得HTM的優(yōu)勢(shì)是不是在于他不僅在層級(jí)之間有連接,同時(shí),也增加了層級(jí)內(nèi)部的連接,所以是不是需要看一些其他的模型來(lái)對(duì)比一下呢?
一個(gè)問(wèn)題:在George論文中的HTM能夠利用Belief Propagation理論來(lái)推導(dǎo)inference等的過(guò)程,那么能不能同樣用到Numenta現(xiàn)行的HTM模型中呢?
參考文獻(xiàn)
[1] D. George, "How the Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition",Ph.D Thesis, Stanford University, June 2008.
[2] D. George and J. Hawkins, "A Hierarchical
[3] D. George and J. Hawkins, "Belief Propagation and Wiring Length Optimization as Organizing Principles for Cortical Microcircuits", Technical report, Redwood
Neuroscience Institute.
[4] Jeff Hawkins, Dileep George and Jamie Niemasik, "Sequence memory for prediction, inference and behaviour", Philosophical Transactions on the Royal Society B, 2009.
[5] http://vicarious.com/
[6] http://www.kurzweilai.net/vicarious-announces-15-million-funding-for-ai-soft ware-based-on-the-brain
[7] http://numenta.com/grok/
[8] D. Maltoni, Pattern Recognition by Hierarchical Temporal Memory , Technical Report, DEIS - University of Bologna technical report, April 2011.
[9] E.M. Rehn and D. Maltoni, Incremental Learning by Message Passing in Hierarchical Temporal Memory , Neural Computation, vol.26, no.8, pp.1763-1809, August 2014.
[10] J. Hawkins, S. Ahmad and D. Dubinsky, "Hierarchical Temporal Memory including HTM Cortical Learning Algorithms",
hierarchical-temporal-memory-cortical-learning-algorithm-0.2.1-en.pdf
[11] https://github.com/MichaelFerrier/HTMCLA
[12] https://sourceforge.net/p/openhtm/
[13] https://github.com/numenta/nupic/wiki