機(jī)器之心原創(chuàng)
作者:趙云峰
鄧力,微軟研究院人工智能首席科學(xué)家,美國 IEEE 電氣和電子工程師協(xié)會(huì)院士。2015年,鄧力憑借在深度學(xué)習(xí)與自動(dòng)語音識(shí)別方向做出的杰出貢獻(xiàn),榮獲 IEEE 技術(shù)成就獎(jiǎng)。鄧力首次提出并解決將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到大規(guī)模語言識(shí)別中,這一實(shí)踐顯著提高了機(jī)器對(duì)語音的識(shí)別率,極大推動(dòng)了人機(jī)交互領(lǐng)域的發(fā)展與進(jìn)步。
在阿爾法公社舉辦的「AI 領(lǐng)域跨越技術(shù)/產(chǎn)業(yè)/投資」及他在 IEEE-ICASSP 得獎(jiǎng)之后的聚會(huì)上,機(jī)器之心有幸對(duì)鄧力研究員進(jìn)行了一次深度專訪。鄧力介紹了自己和微軟研究院在做的關(guān)于人工智能的數(shù)項(xiàng)研究,回顧了自己在人工智能和語音識(shí)別領(lǐng)域的研究歷程,并深入分析了人工智能領(lǐng)域的研究現(xiàn)狀和未來發(fā)展, 針對(duì)無監(jiān)督學(xué)習(xí)等人工智能難題提出了自己的研究思路和解決方法。相信鄧力的精彩分享將會(huì)給人工智能從業(yè)者帶來巨大收獲,其對(duì)人工智能的深入思考和研究理念也會(huì)給大家?guī)韺氋F的靈感和啟發(fā)。
微軟研究院人工智能首席科學(xué)家鄧力
一、目前所做研究:人工智能算法、大規(guī)模商業(yè)應(yīng)用以及各類人工智能方法的整合
很多實(shí)際問題不是非黑即白的,而是有很多中間狀態(tài),我們在做一些比較大型的研究,將很多層神經(jīng)網(wǎng)絡(luò)(包括時(shí)空上聯(lián)合的深層)與其他方法結(jié)合起來去應(yīng)對(duì)這些不確定性。
機(jī)器之心:您能否介紹一下目前在微軟研究院做的人工智能方面的研究,您在語音識(shí)別領(lǐng)域獲得了巨大成功,除此之外還在做其他方面的研究嗎?
鄧力:總體來說,人工智能的各項(xiàng)研究我和我在研究院的團(tuán)隊(duì)都在做。首先,語音識(shí)別和語言模型我做了很多年,圖像描述(Image Captioning)和有關(guān)多媒態(tài)近年來也在深入研究。 圖像描述就是給出一個(gè)圖像,機(jī)器可以寫出語法標(biāo)準(zhǔn)的句子來描述它,而且相當(dāng)準(zhǔn)。我的一支團(tuán)隊(duì)去年用了一個(gè)類似于「圖靈測試」的方法進(jìn)行測試,結(jié)果有32%的情況大家分不出哪些是機(jī)器自動(dòng)寫的,谷歌同類系統(tǒng)的結(jié)果是31%,和我們差不多,人類是67%,這個(gè)技術(shù)在若干年后可能會(huì)達(dá)到人類水平。
微軟研究院的「圖像描述(Image Captioning)」,來源:鄧力在 IEEE-ICASSP 演講用的 PPT 和微軟美國研究院 CVPR-2015 論文「From Captions to Visual Concepts and Back」。
其次,我們現(xiàn)在做算法方面的研究比較多,包括語音識(shí)別和自然語言理解算法、增強(qiáng)學(xué)習(xí)算法等,以及如何將增強(qiáng)學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法整合在一起;如何將生成性深度學(xué)習(xí)和無監(jiān)督學(xué)習(xí)進(jìn)行融合, 等等。
第三是涉及人工智能在商業(yè)方面大規(guī)模實(shí)際應(yīng)用。我們在研究具體問題要用什么樣的深度學(xué)習(xí)和人工智能方法來解決并怎樣采用最有效的方式。
而最重要的研究方向,是如何將大數(shù)據(jù)、深度學(xué)習(xí)以及人工智能各種方法整合在一起,使得機(jī)器學(xué)習(xí)和人工智能更加有效,而且對(duì)數(shù)據(jù)的要求也不能大到現(xiàn)實(shí)應(yīng)用場景提供不了的地步。
總之,不管是方法研究還是應(yīng)用研究,我們都是在做一些比較大型的和前沿性的研究,比如如何將很多層神經(jīng)網(wǎng)絡(luò)與其他方法結(jié)合起來去應(yīng)對(duì)解析性(explanability)以及應(yīng)對(duì)各種不確定性(uncertinty),因?yàn)楹芏鄬?shí)際問題不是非黑即白的,而是有很多中間狀態(tài),如何將這種概念與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,人工智能在這方面的研究還做的比較少。但現(xiàn)實(shí)世界中其實(shí)有很多的不穩(wěn)定性和不確定性,如何在這種不確定的情況下做出最優(yōu)決策?這就需要將深度學(xué)習(xí)其他方法整合在一起,然后才能做出適合真實(shí)世界的各類人工智能應(yīng)用,包括語音、圖像、自然語言、翻譯,商業(yè)數(shù)據(jù)分析和 insight distillation 等。
機(jī)器之心:長短時(shí)記憶模型(LSTM)在研究中是否發(fā)揮了很大作用?
鄧力:是的,我們是在使用這個(gè)方法,但我認(rèn)為目前的長短時(shí)記憶模型還不夠,它實(shí)際上還是個(gè)短時(shí)模型,用比較簡單和非嚴(yán)謹(jǐn)?shù)姆椒ò选付虝r(shí)」(short term)慢慢加長,但加長一段時(shí)間之后通常不夠有效,所以還需要其他更嚴(yán)謹(jǐn)?shù)姆椒,包括記憶網(wǎng)絡(luò)(Memory Network),神經(jīng)圖靈機(jī)(Neural Turing Machine)等。這些都是很有效的方法,我們目前也在研究比這些更進(jìn)一步的方法。
機(jī)器之心:您平時(shí)會(huì)思考一些人工智能哲學(xué)方面的問題嗎?比如說機(jī)器意識(shí)之類的。
鄧力:我覺得機(jī)器意識(shí)離我們太遠(yuǎn)了。我與其想那些,還不如多花些時(shí)間在深度學(xué)習(xí)算法和架構(gòu)研究上,剛剛提到的無監(jiān)督深度學(xué)習(xí)就值得我花大量時(shí)間去研究了。
二、個(gè)人的人工智能研究歷程以及與 Geoffrey Hinton 的合作
這是當(dāng)時(shí)我和 Hinton 合作研究的一部分內(nèi)容,把隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,并取得了比較好的初步表現(xiàn)。
機(jī)器之心:您本科是學(xué)神經(jīng)科學(xué),后來是如何進(jìn)入到人工智能領(lǐng)域的?能否介紹一下您和 Geoffrey Hinton 合作過程嗎?
鄧力:我在中科大本科學(xué)習(xí)神經(jīng)科學(xué)和物理學(xué),后來到美國研究聽覺神經(jīng)系統(tǒng)與其計(jì)算模型。1985 年底還在做博士論文的時(shí)候,我用物理模型和神經(jīng)模型來做聽覺模擬,但當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)算的太慢。當(dāng)時(shí)我也嘗試過把生物模型的特征提取出來丟到隱馬爾科夫模型里,結(jié)果很不理想,因?yàn)樗鼈儾皇浅墒斓哪軌蛳嗥ヅ涞南到y(tǒng)。后來我發(fā)現(xiàn)純統(tǒng)計(jì)方法更有用,從 80 年代中末期到深度學(xué)習(xí)出來之前,我做了很多研究,包括計(jì)算人工神經(jīng)網(wǎng)絡(luò)。但到了 90 年中末之后貝葉斯統(tǒng)計(jì)模型更加流行。
1993-1994 年左右還在加拿大滑鐵盧大學(xué)當(dāng)教授的時(shí)候,我和我的一位博士生合作了一篇非常漂亮的論文,當(dāng)把線性的項(xiàng)加到非線性的項(xiàng)之后,可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的記憶能力。并且我做了很多數(shù)學(xué)上比較嚴(yán)謹(jǐn)?shù)姆治鰹楹斡洃浤芰梢栽鰪?qiáng)。那時(shí)電腦的計(jì)算能力不夠,模型做的很簡單,但這是一套完整的系統(tǒng),但當(dāng)把這個(gè)結(jié)果真正用在語音識(shí)別上時(shí),卻還是沒有大大超過隱馬爾科夫模型的方法。
那時(shí),我為這個(gè)博士生論文答辯找的 External Examiner 就是 Geoffrey Hinton,他過來后看到我們的研究就說神經(jīng)網(wǎng)絡(luò)真是太難了。但這個(gè)博士生還是拿到了博士學(xué)位。因?yàn)檫@次的研究結(jié)果,我就很長之后不做神經(jīng)網(wǎng)絡(luò)研究了,開始完全轉(zhuǎn)向貝葉斯統(tǒng)計(jì)方法和生成模型 (Generative Models)。
現(xiàn)在大家因?yàn)樯疃葘W(xué)習(xí)對(duì) Hinton 和神經(jīng)網(wǎng)絡(luò)比較關(guān)注,但實(shí)際上他的很多方法也是基于生成模型,比如說深度信念網(wǎng)絡(luò)(DBN),它并不像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),而是一種從上到下的生成模型。最頂上是兩層雙向(從上到下和從下到上)的生成模型,然后完全從上到下生成數(shù)據(jù)。最底層代表了數(shù)據(jù)向量 (data vectors)。
之后我在微軟研究語音識(shí)別。在有效的深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法發(fā)明之前,我用貝葉斯網(wǎng)絡(luò)方法把隱馬爾科夫模型(頂層)和 人類語音生成模型相結(jié)合并設(shè)計(jì)了很多層次。多層次是必須的,因?yàn)槟康氖且阎匾奈锢憩F(xiàn)象模擬出來。隱馬爾科夫模型只是模擬了對(duì)大腦對(duì)聲音的編碼這個(gè)行為,但整個(gè)過程中還包括肌肉運(yùn)動(dòng)控制、口腔內(nèi)聲道運(yùn)動(dòng)等環(huán)節(jié),最后通過聲學(xué)轉(zhuǎn)化才能變成語音,這就需要許多層,包括對(duì)噪音環(huán)境的模擬。但這種多層結(jié)構(gòu)不見得就一定是神經(jīng)網(wǎng)絡(luò),用深層生成模型能更自然地實(shí)現(xiàn)。
當(dāng)時(shí)(2002-2006)我在微軟領(lǐng)導(dǎo)一支小團(tuán)隊(duì)在這方面做了很多研究工作。那時(shí)相對(duì)比較有效的理論就是貝葉斯網(wǎng)絡(luò)與相應(yīng)的方法。但關(guān)鍵在于,如果層數(shù)很多,并且在動(dòng)態(tài)過程中進(jìn)行語音識(shí)別時(shí),它的學(xué)習(xí)和推斷過程很難駕馭。就是說,增加層數(shù)后帶來的計(jì)算復(fù)雜度呈指數(shù)級(jí)增長。我們發(fā)明了很多方法來近似指數(shù)級(jí)增長的計(jì)算。近似之后結(jié)果還不錯(cuò),但是比精心設(shè)計(jì)和調(diào)制的隱馬爾科夫模型在準(zhǔn)確率上沒有非常大的進(jìn)步,但計(jì)算量卻大得非常多。
后來我就看到了 Hinton 2006 年關(guān)于深度信念網(wǎng)絡(luò)的論文(注:《A fast learning algorithm for deep belief nets 》)。當(dāng)時(shí)我就很奇怪,他的這個(gè)生成模型也是很多層,為何沒有出現(xiàn)這些問題?2009 年,我請(qǐng) Hinton 來微軟討論這個(gè)問題,就發(fā)現(xiàn)深度信念網(wǎng)絡(luò)比較容易的原因是它不涉及動(dòng)態(tài)。我們就把嚴(yán)謹(jǐn)?shù)膭?dòng)態(tài)模型去掉,但把時(shí)域上的向量數(shù)加大來近似嚴(yán)謹(jǐn)?shù)膭?dòng)態(tài)模型,最后的簡化模型給出的結(jié)果還不錯(cuò)。但另外一個(gè)問題是,即使用了簡化的動(dòng)態(tài)模型,有很多層的深度生成學(xué)習(xí)仍然需要很大計(jì)算量。于是我們就想到了下一個(gè)巧妙的方法:把生成模型倒轉(zhuǎn)方向 --- 在語音識(shí)別中我們有許多打好標(biāo)簽的數(shù)據(jù),我們就可以使用自下而上的神經(jīng)網(wǎng)絡(luò)而不是自上而下的生成模型。 這實(shí)際上就成為深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫模型結(jié)合的雛形。最后的實(shí)驗(yàn)結(jié)果就讓人滿意了,而且學(xué)習(xí)的過程也更加可控。
鄧力與 Geoffrey Hinton 合辦的 NIPS Workshop 《Deep Learning for Speech Recognition and Related Applications》,首次將深度學(xué)習(xí)用于語音識(shí)別。圖片來源:鄧力演講 PPT。
這是當(dāng)時(shí)我和 Hinton 合作研究的一部分內(nèi)容,把隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,并取得了比較好的初步表現(xiàn)。但是所用的一系列近似產(chǎn)生了其他問題。比如,發(fā)音系統(tǒng)的運(yùn)動(dòng)是產(chǎn)生語音的一個(gè)因果機(jī)制(causal mechanism),但神經(jīng)網(wǎng)絡(luò)無法模擬這種關(guān)系。 所以這種深度神經(jīng)網(wǎng)絡(luò)失去了大部分的解析性。這在語音識(shí)別應(yīng)用上問題不算太嚴(yán)重。但在我現(xiàn)在領(lǐng)導(dǎo)的很多其他更重要的應(yīng)用上, 問題就嚴(yán)重得多。所以我們在做多方面很深入的研究來推進(jìn)改善現(xiàn)有的深度學(xué)習(xí)方法。
這種方法整合和創(chuàng)新的思路同樣可以用于無監(jiān)督學(xué)習(xí)。我在這方面想了很多,與團(tuán)隊(duì)成員一起工作,經(jīng)驗(yàn)也積累了不少。
機(jī)器之心: 您和 Hinton 合作了很長時(shí)間,他對(duì)您有什么啟發(fā)嗎?
鄧力:他非常好,我從他身上學(xué)到了非常多東西。他對(duì)科學(xué)充滿了激情,而且有著非常好的洞察力,特別對(duì)類腦算法的研究非常深入。記得上次同他討論的整個(gè)小時(shí)談的都是類腦算法。過去在和他合作的過程中我收獲很大,也希望將來能有機(jī)會(huì)和他繼續(xù)合作。
鄧力和 Geoffrey Hinton,圖片來源:微軟研究院。
三、對(duì)人工智能研究現(xiàn)狀和未來進(jìn)展的看法
將來人工智能的成功一定是不同種類方法的整合,就像人一樣,擁有各種思維方法的完整系統(tǒng),應(yīng)該很自然的把神經(jīng)網(wǎng)絡(luò)方法、貝葉斯理論方法, 符號(hào)式邏輯推理等其他理論方法整合在一起。
機(jī)器之心:從 NIPS 2015 來看,不同神經(jīng)網(wǎng)絡(luò)之間的模塊化組合越來越多,您如何看待這種趨勢?
鄧力:現(xiàn)在人工智能之所以這么成功,就是因?yàn)槟K化,可以把不同成功的工具和方法整合在一起。比如在復(fù)雜的神經(jīng)網(wǎng)絡(luò)里,以前大家沒有為訓(xùn)練用的自動(dòng)求導(dǎo)工具,要花大量時(shí)間做求導(dǎo)和程序開發(fā)及調(diào)試工作。有了這些模型組合和工具之后,您只需要訓(xùn)練輸入數(shù)據(jù),訓(xùn)練結(jié)果就出來了,訓(xùn)練也就完成了,省了很多工程量。所以這種趨勢對(duì)以深度神經(jīng)網(wǎng)絡(luò)為主的人工智能快速發(fā)展非常有利。
機(jī)器之心:目前序列映射學(xué)習(xí)(sequence to sequence learning)的效果非常好,它在應(yīng)用中還有哪些局限嗎?
鄧力:所謂 sequence to sequence,最早(一年半前)Google Brain 研究人員用在機(jī)器翻譯時(shí)是基于用一個(gè)「thought vector」來對(duì)整個(gè)輸入句子進(jìn)行編碼。 但是它的記憶(memory)不夠好,后來加上了注意模型(attention model)來彌補(bǔ)記憶不足的問題,所以現(xiàn)在的機(jī)器翻譯用了注意模型之后已經(jīng)比之前序列映射學(xué)習(xí)有了很大提升。我覺得這個(gè)方法還不錯(cuò),但是更好的方法是把記憶能力進(jìn)一步提升?傊瑂equence to sequence 是一個(gè)很好的方向,而更好的方向是 structure to structure。
機(jī)器之心:您認(rèn)為在深度學(xué)習(xí)研究中還面臨著哪些亟待解決的問題嗎?比如 Yann LeCun 和 Yoshua Bengio 就一直強(qiáng)調(diào)說,需要在無監(jiān)督學(xué)習(xí)方面取得突破。
鄧力:我也在去年夏天就看到這個(gè)重要問題有解決的希望。目前我們團(tuán)隊(duì)花了很多精力在做有自己特色的無監(jiān)督學(xué)習(xí),但這方面的研究確實(shí)比較難做。目前在我們團(tuán)隊(duì)之外我看到大家的想法不少但還沒有很大的思想突破,我所看到的資料里都沒有實(shí)質(zhì)性的進(jìn)展。
把無監(jiān)督學(xué)習(xí)做好是一個(gè)很大的挑戰(zhàn),而我們獨(dú)特的的解決辦法依賴于四種知識(shí)源泉。1)沒有標(biāo)簽也不要緊,因?yàn)槿祟悓W(xué)習(xí)也不見得每次都有標(biāo)簽。在沒有標(biāo)簽的情況下你就要利用知識(shí),知識(shí)應(yīng)該很容易并幾乎不花錢得到,因?yàn)楹芏嘀R(shí)都是現(xiàn)成的,比如說標(biāo)簽的統(tǒng)計(jì)特性,F(xiàn)在的機(jī)器學(xué)習(xí)、語音識(shí)別和圖像描述都可以使用這種統(tǒng)計(jì)特性,從取之不盡、用之不竭的互聯(lián)網(wǎng)和其他大數(shù)據(jù)中抽取出語言序列的統(tǒng)計(jì)特性。這就是說,我們是把輸出部分的結(jié)構(gòu)挖掘出來并巧妙地利用它。2)把輸入數(shù)據(jù)的統(tǒng)計(jì)結(jié)構(gòu)模擬出來并加以利用。3)模擬并利用從輸出(標(biāo)簽)到輸入的關(guān)系,這個(gè)任務(wù)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)很難做的了,只能依靠與深度生成模型(Deep Generative Modeling)。4)從輸入到輸出的關(guān)系,這個(gè)任務(wù)是目前神經(jīng)網(wǎng)絡(luò)非常擅長的。如果把四種知識(shí)源泉全部巧妙地用上,就有可能解決無監(jiān)督學(xué)習(xí)問題。所以,要解決無監(jiān)督學(xué)習(xí)問題,現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)方法是不夠的。
深度無監(jiān)督學(xué)習(xí)的要點(diǎn),來源:鄧力演講 PPT。
機(jī)器之心:雖然目前深度學(xué)習(xí)越來越強(qiáng)大,但之前傳統(tǒng)的線性方法和深度學(xué)習(xí)之間是否也應(yīng)該是相互補(bǔ)充的關(guān)系?
鄧力:相對(duì)簡單的問題可以用線性方法,比較復(fù)雜的問題就要用深度學(xué)習(xí)非線性方法。但有時(shí)線性方法也會(huì)幫助幫助非線性深度學(xué)習(xí)方法。比如我開始給你講的我同我的博士生 1994 年發(fā)表在《Neural Networks》上的論文——將線性項(xiàng)加入非線性項(xiàng)會(huì)提高原先非線性時(shí)間序列的時(shí)序記憶能力(temporal correlation structure)并給出嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)分析。 又比如我的同事們近期所研究的 深度殘差網(wǎng)絡(luò)(deep residual networks) 多層結(jié)構(gòu),還有我和團(tuán)隊(duì)在 2011-2013 期間所研究的 deep stacking networks 與 deep kernel networks 都是通過線性方法和非線性方法結(jié)合在一起的。所以線性方法還是很有用的,應(yīng)該成為深度學(xué)習(xí)的一部分。
機(jī)器之心:有研究者稱目前的深度學(xué)習(xí)需要的數(shù)據(jù)量太大。紐約大學(xué)的 Gary Marcus 一直在批評(píng)深度學(xué)習(xí),他認(rèn)為應(yīng)該像嬰兒一樣通過極少數(shù)案例就能完成學(xué)習(xí)。另外,根據(jù) Brenden Lake 等人在《Science》發(fā)表的論文《Human-level concept learning through probabilistic program induction》,使用貝葉斯程序?qū)W習(xí)的方法讓機(jī)器很快就能學(xué)會(huì)陌生字符,解決了特定任務(wù)下「one shot」學(xué)習(xí)的問題。深度學(xué)習(xí)是不是也應(yīng)該和其他方法結(jié)合起來,來應(yīng)對(duì)不同的數(shù)據(jù)量?
鄧力:我同意,如果是少量數(shù)據(jù)的話,神經(jīng)網(wǎng)絡(luò)不見得是最好的。將來人工智能的成功一定是把不同方法的整合,就像人一樣,人的不同的學(xué)習(xí)方法也很難明顯的區(qū)分開來,這是一個(gè)完整的系統(tǒng),應(yīng)該很自然的把神經(jīng)網(wǎng)絡(luò)理論、貝葉斯方法等其他理論整合在一起,這樣就和人類大腦有點(diǎn)像了。
人工智能未來研究的挑戰(zhàn),來源:鄧力演講 PPT。
這個(gè)實(shí)現(xiàn)之后,遇到大量數(shù)據(jù)就使用從下到上的神經(jīng)網(wǎng)絡(luò)方法,遇到少量數(shù)據(jù)就使用從上到下的生成模型,但最好的是將兩個(gè)過程循環(huán)使用。就像人腦一樣,白天是從下到上,看到東西聽到聲音產(chǎn)生感覺;晚上從上到下,做夢生成,不好的東西丟掉,好的東西儲(chǔ)存進(jìn)入記憶。人類不斷重復(fù)這個(gè)醒與睡和睡與醒的過程,而我們的訓(xùn)練方法也應(yīng)該這樣,又有感知,又有生成。目前的深度神經(jīng)網(wǎng)絡(luò)還比較簡單,信息主體上是從下到上,還無法做到以上那種循環(huán)。
我讀過 Brenden Lake 等人在《Science》發(fā)表的這篇很強(qiáng)的論文。他們的實(shí)驗(yàn)顯示,單單靠從下到上的神經(jīng)網(wǎng)絡(luò)是無法完成類腦的人工智能的。
機(jī)器之心:接下來人工智能的研究是否要從神經(jīng)認(rèn)知科學(xué)領(lǐng)域獲得越來越多的靈感?
鄧力:我是很贊成這個(gè),但要非常小心。Gary Marcus 屬于人工智能和認(rèn)知科學(xué)流派中的符號(hào)主義,符號(hào)主義可以做推理,但比較難做學(xué)習(xí)。我和團(tuán)隊(duì)同一些大學(xué)教授合作,現(xiàn)在的很大一部分工作是如何將符號(hào)處理的推理跟深度神經(jīng)網(wǎng)絡(luò)整合在一起,使得符號(hào)處理可以用深度學(xué)習(xí)的方法來完成。這個(gè)研究課題就是從認(rèn)知科學(xué)領(lǐng)域的核心問題啟發(fā)出來的。
從整個(gè)人工智能體系的方法和認(rèn)知科學(xué)來看,符號(hào)處理和推理屬于一派(Symbolists);神經(jīng)網(wǎng)絡(luò)屬于聯(lián)接主義(Connectionists);第三個(gè)是基于統(tǒng)計(jì)學(xué)的貝葉斯方法(Bayesians);第四種是演化理論(Evolutionaries),但這個(gè)實(shí)在太慢了,離產(chǎn)業(yè)比較遠(yuǎn)。第五種叫做類比學(xué)習(xí)(Analogizer),但類比學(xué)習(xí)有自己的局限性,數(shù)據(jù)大了之后無法規(guī)模化,但是在某些情況下還是可以用。
我覺得到最后這些方法應(yīng)該全部整合在一起,生成一個(gè)非常漂亮、統(tǒng)一的理論,不管遇到各種數(shù)據(jù)量、各種場合都可以處理。但是從研究來看,不可能五個(gè)一起做,我們是兩三個(gè)整合一起。這個(gè)是基礎(chǔ)研究,研究到一定程度如果好用,我們再把它應(yīng)用。
機(jī)器之心:之前的自然語言處理、語音識(shí)別會(huì)基于規(guī)則、語法等語言學(xué)理論,現(xiàn)在的深度學(xué)習(xí)研究者是如何看待 Norm Chomsky 語言理論的?
鄧力:我認(rèn)為 Chomsky 語言學(xué)理論的一部分還是有用的。為什么呢?像剛才講的那個(gè)貝葉斯程序?qū)W習(xí)的「one shot leanrning」實(shí)際上就和 Chomsky 的理論有點(diǎn)像。所以這個(gè)是不能丟掉的,尤其是要做無監(jiān)督學(xué)習(xí)的話。當(dāng)數(shù)據(jù)少甚至沒數(shù)據(jù)或他們的標(biāo)簽的話,我們就需要知識(shí)庫。當(dāng)您想要把標(biāo)簽丟掉來做學(xué)習(xí)(這會(huì)節(jié)省巨大資源所以很有實(shí)用價(jià)值),這些知識(shí)庫應(yīng)該都要加進(jìn)來。至于如何添加,也不是按照以前的方法,而是將其作為一種知識(shí)源加進(jìn)去。我覺得完全丟掉這樣一個(gè)如此重要的研究成果太可惜了,Chomsky 語言學(xué)確實(shí)有它的道理,但最大的局限性在于它不重視學(xué)習(xí)而把語言結(jié)構(gòu)知識(shí)歸于天賦(innate)。 因此,如果將 Chomsky 理論和深度學(xué)習(xí)進(jìn)行整合的話會(huì)最好。
機(jī)器之心:DeepMind 創(chuàng)始人 Hassabis 曾表示,他們所研究的深度增強(qiáng)學(xué)習(xí)是要實(shí)現(xiàn)一種通用的解決方案,您在演講中提到增強(qiáng)學(xué)習(xí)其實(shí)解決的是決策最優(yōu)化的問題,那它將來的應(yīng)用是不是非常廣泛?
鄧力:這兩者是一致的。決策最優(yōu)化的問題就是要解決采取什么樣的方案才能取得長期的最佳利益。這是非常通用的。這個(gè)問題也可以看成用現(xiàn)有的觀察數(shù)據(jù)(狀態(tài)變量)來「推測」什么是現(xiàn)時(shí)的最佳行動(dòng)。這里并沒有在有監(jiān)督學(xué)習(xí)中提供的「標(biāo)簽」信號(hào), 而且需要做有監(jiān)督學(xué)習(xí)中不需要的探索(exploration)。
以前的增強(qiáng)學(xué)習(xí)在實(shí)際應(yīng)用上無法很好的工作,是因?yàn)闋顟B(tài)空間 (state space) 很大,只能做一些小規(guī)模的基礎(chǔ)研究,太大的狀態(tài)空間會(huì)帶來更多的指數(shù)型增長的參數(shù),就無法進(jìn)行學(xué)習(xí)。而近期由 DeepMind 帶來的深度增強(qiáng)學(xué)習(xí)的突破在于把很大的狀態(tài)空間用深度神經(jīng)網(wǎng)絡(luò)表達(dá)出來,而不是像傳統(tǒng)方法一樣把幾乎無限大的所有空間模擬出來。比如 DeepMind 研究的 Atari 游戲,狀態(tài)空間極端的大。在 DeepMind 引入深度神經(jīng)網(wǎng)絡(luò)之前,傳統(tǒng)的增強(qiáng)學(xué)習(xí)方法無法處理。以前也有過用線性方法將狀態(tài)空間成一個(gè)低維向量,但這樣太粗淺。深度增強(qiáng)學(xué)習(xí)把這種機(jī)制變成可生成,而且很大,在這種情況下就可以用深度神經(jīng)網(wǎng)絡(luò)計(jì)算出來的向量把很大空間上的信息吸收進(jìn)來,而且我們有了很強(qiáng)的學(xué)習(xí)方法。因此,現(xiàn)在增強(qiáng)學(xué)習(xí)的成功就是深度學(xué)習(xí)成功的強(qiáng)有力的證明。
講到?jīng)Q策最優(yōu)化和深度增強(qiáng)學(xué)習(xí), 我的團(tuán)隊(duì)現(xiàn)在還有一個(gè)研究就是基于自然語言的人機(jī)對(duì)話。以前的對(duì)話方法很難做成,但我認(rèn)為深度增強(qiáng)學(xué)習(xí)會(huì)使得人機(jī)對(duì)話研究有所突破。
四、給人工智能從業(yè)者的建議
如果你想要做很實(shí)際的應(yīng)用,就要看準(zhǔn)現(xiàn)在已經(jīng)很成功的方法;如果你想去推動(dòng)這個(gè)領(lǐng)域的發(fā)展,做一些非常前沿的研究,那在機(jī)器學(xué)習(xí)和人工智能的基本功方面就要有深厚積累。
機(jī)器之心:您在人工智能和語音識(shí)別領(lǐng)域有著豐富的研究經(jīng)驗(yàn),取得了令人矚目的成績,微軟研究院也非常注重人工智能基礎(chǔ)研究,希望推動(dòng)行業(yè)發(fā)展。在人工智能研究方面,您能否給國內(nèi)的研究者提供一些建議?
鄧力:據(jù)我所知,國內(nèi)有很多公司和研究機(jī)構(gòu)在這方面已經(jīng)做的很好了,比如科大訊飛、百度、思必馳和出門問問等在語音方面就做的非常好。
微軟有著比較好的研究條件,而且作為一家大公司想做比較前沿的技術(shù)研究,以影響整個(gè)科技發(fā)展的潮流。我所主持的工作一大部分是在做這方面研究,就是多次提到的把不同種類的人工智能方法整合起來并從中開拓創(chuàng)新領(lǐng)域。所以從這個(gè)角度來講,我感覺這方面的基礎(chǔ)研究一定要做好,這樣才能夠影響人工智能的發(fā)展,甚至是科技的發(fā)展。國內(nèi)在這方面好像缺少了一點(diǎn)。
機(jī)器之心:他們之所以缺少這些東西,是因?yàn)闆]有像微軟、谷歌這么好的硬件條件?還是說在研究的文化和理念上有一些缺失?
鄧力:我覺得更多的在于理念上可能不太一樣,但現(xiàn)在中國顯然比以前好多了,因?yàn)橛泻芏鄰膰饣貋淼难芯咳藛T,他們將這種理念帶回了國內(nèi),所以中國在這方面的觀念正在改變。
13 年前有本書叫《成長——微軟小子的教育》。 當(dāng)時(shí)李開復(fù)安排我跟作者凌志軍會(huì)談,志軍問了我一模一樣的問題,我的回答是中美之間在教育和思想方式有很大區(qū)別。我現(xiàn)在已經(jīng)改變了這一點(diǎn),從教育上講,中國確實(shí)不比美國差。中科大、清華北大這些學(xué)生的成績非常好。我當(dāng)時(shí)從科大畢業(yè)去美國讀研究院,我的導(dǎo)師認(rèn)為我本科畢業(yè)時(shí)掌握的知識(shí)是美國碩士才可以學(xué)到的。但我覺得可能還是缺乏一些靈感和想象力。
我舉個(gè)例子,這個(gè)例子好像在凌志軍的書上也出現(xiàn)過。在一次 IEEE-ICASSP 會(huì)議上,國內(nèi)一位語音專家問我,為什么你們北美教授寫的論文都是很新的東西?那是 20 年前,每次會(huì)議的論文集都特別厚,我們的方法是在開會(huì)時(shí)記錄一些重要的東西,然后經(jīng)過思考去做一些新的東西,而這位中國教授則是把這 1000 多頁的資料帶回國,每天打太極拳打累了就看幾頁,一年 365 天剛好看完。當(dāng)時(shí)我就想,難怪在科研上很難創(chuàng)新,把時(shí)間都花在了去年的研究成果上。這可能和中國的文化有關(guān)系——一定要把現(xiàn)有的東西學(xué)習(xí)透,然后才去做創(chuàng)新。但有時(shí)不需要這樣,你要把不重要的東西丟掉,把核心信息提取出來,這樣才能更好的創(chuàng)新。不然你連發(fā)現(xiàn)哪些是前沿研究的時(shí)間都沒有。我現(xiàn)在通過媒體獲取信息也是這樣,不重要的東西要立刻忽略掉。所以判斷力很重要。
做科學(xué)研究一定要找到最正確的方法。比如剛才提到的無監(jiān)督學(xué)習(xí)的重要性,我很早就知道無監(jiān)督學(xué)習(xí)很重要,但找到解決的辦法是很困難的。你要不斷嘗試,從失敗中吸取教訓(xùn),在這個(gè)過程中一定要看準(zhǔn)大的目標(biāo),把一些沒用的過濾掉。
機(jī)器之心:現(xiàn)在有越來越多的人工智能工具開源,而國內(nèi)的公司又比較注重商業(yè),缺乏做底層創(chuàng)新或基礎(chǔ)研究的文化。那開源是否會(huì)助長「拿來主義」,使他們把更多的精力放在商業(yè)應(yīng)用上,而更加忽視了基礎(chǔ)研究?
鄧力:我的意思正好相反。開源并不是說你拿來之后就可以直接用,有開源工具是會(huì)使你創(chuàng)新更快。之前我要設(shè)計(jì)一些算法,我都不敢把神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法設(shè)計(jì)的太復(fù)雜,因?yàn)閷?shí)習(xí)學(xué)生的實(shí)習(xí)時(shí)間通常就 3 個(gè)月,架構(gòu)和算法太復(fù)雜就可能會(huì)在有限期內(nèi)完成不了指定的項(xiàng)目。而現(xiàn)在我就敢把神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法做的很復(fù)雜了,因?yàn)橛辛诉@些開源工具,我們把幾個(gè)模塊搭好,學(xué)生就不用一個(gè)個(gè)去推導(dǎo)了,可以直接獲取結(jié)果。所以,并不是大家都依賴開源而不去思考新的東西,而是開源以后會(huì)讓你更有膽量去做更復(fù)雜的模型。再拿無監(jiān)督學(xué)習(xí)舉例,開源大大加快了我?guī)ьI(lǐng)團(tuán)隊(duì)的研究速度。所以,開源確確實(shí)實(shí)對(duì)深度學(xué)習(xí)的進(jìn)展起了一個(gè)非常大的推動(dòng)作用。越多開源越好,因?yàn)殚_源的主要好處是大家集體貢獻(xiàn),形成一種良好的生態(tài)圈, 并同時(shí)推動(dòng)更快速地實(shí)驗(yàn)檢驗(yàn)人工智能方法的有效性。
機(jī)器之心:微軟在人工智能技術(shù)應(yīng)用上也做到非常出色,包括實(shí)時(shí)翻譯、圖像識(shí)別等工具,在人工智能技術(shù)應(yīng)用方面,您有沒有一些心得或者建議給到國內(nèi)的人工智能公司?
鄧力:實(shí)際上我們微軟在人工智能技術(shù)應(yīng)用上的很多重大進(jìn)展尚未對(duì)外公布。至于心得或者建議, 我想說的是做人工智能研究和應(yīng)用的技能有幾個(gè)層次。最底層的技能就是把各種方法弄懂,知道它們各自的局限性。第二層的技能就是把各種工具用熟練,看到問題后馬上匹配相應(yīng)工具,這樣就可以把模型做大,解決更難的問題。第三層技能是,要知道在具體領(lǐng)域中哪些方法可以用,哪些方法不可以用。比如說,過去幾年內(nèi)我做了大約20 方面的深度學(xué)習(xí)和人工智能應(yīng)用,然后一邊看應(yīng)用一邊看數(shù)據(jù),理解數(shù)據(jù)的性質(zhì),理解數(shù)據(jù)多還是少,是否有標(biāo)簽,標(biāo)簽是否干凈可靠,要弄清楚這些因素如何影響深度學(xué)習(xí)方法的有效性,這是需要長時(shí)間積累的。因?yàn)槟壳吧疃葘W(xué)習(xí)還沒有一個(gè)非常漂亮的理論,所以還無法非常明確的解釋什么情況下可以得到什么結(jié)果。所以我認(rèn)為,如果想要做很實(shí)際的應(yīng)用,就要看準(zhǔn)現(xiàn)在已經(jīng)很成功的方法;如果你想去推動(dòng)這個(gè)領(lǐng)域的發(fā)展,做一些非常前沿的研究,那在機(jī)器學(xué)習(xí)和人工智能的基本功方面就要有深厚積累,只有這樣你才能知道不同方法的優(yōu)勢和局限。
機(jī)器之心:去年發(fā)生了一個(gè)事情,機(jī)器在解釋圖片時(shí)把一對(duì)黑人夫婦標(biāo)記成了大猩猩,這種問題對(duì)于我們做后續(xù)研究會(huì)帶來哪些啟示嗎?
鄧力:我覺得這個(gè)問題暴露出了人工智能的一些缺點(diǎn),這就像 AlphaGo 輸?shù)粢痪忠粯,你?jīng)歷過這些錯(cuò)誤之后就學(xué)會(huì)了這種方法的局限性, 然后開拓新方法新理論。以后公司對(duì)此要格外小心,并且我們要從這類錯(cuò)誤中吸取教訓(xùn),這樣人工智能就會(huì)更少的犯這種錯(cuò)誤,這種反復(fù)會(huì)使人工智能有新的提升和突破。其實(shí)這種政治性的錯(cuò)誤還是很容易避免的---只要把一些敏感詞除掉。
機(jī)器之心:您在日常研究和學(xué)習(xí)過程中,有哪些獲取信息和閱讀的技巧和方法嗎?
鄧力:我主要是在 Facebook、Google+ 上關(guān)注一些優(yōu)秀的研究者,包括 Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio 等,然后設(shè)置一些信息推送。NIPS,ICML,JMLR,arXiv 上都有很新很好的工作進(jìn)展,偶爾 Science 和 Nature 也會(huì)有。 另外,也會(huì)通過微信閱讀一些中文內(nèi)容,希望有更多的機(jī)會(huì)讀機(jī)器之心的相關(guān)中文內(nèi)容。
致 謝
采訪稿完成后,鄧力研究員在百忙之中拿出了幾個(gè)小時(shí)的時(shí)間,非常嚴(yán)謹(jǐn)?shù)膶?duì)涉及人工智能理論和技術(shù)細(xì)節(jié)的內(nèi)容做了確認(rèn)和補(bǔ)充,以保證讀者獲取更加準(zhǔn)確和翔實(shí)的知識(shí)。在此,對(duì)鄧力研究員表示由衷感謝!同時(shí),也感謝阿爾法公社邀請(qǐng)機(jī)器之心參加此次會(huì)議,并積極促成了本次專訪。
本文由機(jī)器之心原創(chuàng)
|