|
作者: Nicola Nosengo
機器之心編譯
參與:王紫薇、吳恒、微胖
一些研究者相信,機器學(xué)習(xí)技術(shù)可以變革材料科學(xué)。
這是對最極客視頻前所未有的挑戰(zhàn):一部智能手機的特寫,一排排數(shù)字和符號正在手機屏幕上滾動著。但是,當(dāng)拜訪者們駐足在 Nicola Marzari 可以俯瞰日內(nèi)瓦湖的辦公室時,他迫不及待得向人們炫耀它了!笍2010年就開始了,」他說,「我的手機正在實時計算硅的電子結(jié)構(gòu)!」
Marzari,瑞士洛桑聯(lián)邦理工學(xué)院 (Swiss Federal Institute of Technology in Lausanne,EPFL)的物理學(xué)家,解釋道,他現(xiàn)在的手機僅用 40 秒就可以執(zhí)行一個超級計算機需花費數(shù)小時的量子力學(xué)運算 —— 這個傲人成果不僅展現(xiàn)了過去幾十年運算方式的進步,也證實了這些運算方式有望改變未來材料科學(xué)研究方式。
Marzari 和志同道合的研究人員正在使用計算機建模技術(shù)和機器學(xué)習(xí)技術(shù),集成由數(shù)以萬計的候選材料組成的數(shù)據(jù)庫,而不再是用以前開發(fā)新材料的老式方法(靠運氣碰到一些新材料,然后在實驗室精心測試它們的性能)。即使實驗失敗,其產(chǎn)生的數(shù)據(jù)也可以做出貢獻。雖然許多候選材料是完全被假設(shè)出來的,但是,通過搜遍這些材料的性能,工程師們已經(jīng)開始針對特定用途,篩選那些值得合成和測試的材料——例如,是否是良好的導(dǎo)體或絕緣體、是否有磁性以及熔點和耐壓強度如何。
「他們希望這種方法能讓材料發(fā)現(xiàn)的速度和效率產(chǎn)生巨大飛躍,」加州大學(xué)伯克利分校的材料科學(xué)家、也是這一領(lǐng)域的先驅(qū)者 Ceder 說。Ceder 認為,「我們對現(xiàn)存材料的了解大概只有 1% 」,他提到了鋰鐵電池(lithium iron phosphate) 的例子:在二十世紀(jì)三十年代就被合成出來的化合物,然而一直到 1996 年,人們才承認,它有望替代鋰離子電池!钢,壓根沒有人想測量它的電壓」Ceder說。
目前,全世界已有至少三個主要的材料數(shù)據(jù)庫,每個數(shù)據(jù)庫包含了數(shù)萬或數(shù)十萬種的化合物。Marzari 位于洛桑的材料云項目 (Materials Cloud project)將在今年內(nèi)開始運行。而且也開始引發(fā)更廣泛的利益團體關(guān)注。Neil Alford,材料科學(xué)家,倫敦帝國理工學(xué)院(Imperial College London)科研副主任(不過他和數(shù)據(jù)庫項目沒有關(guān)系)認為,「我們正在見證一個真正匯聚,實驗者們想要的東西和理論學(xué)家可以傳遞內(nèi)容的匯聚」。
然而,這些倡導(dǎo)者們很快發(fā)現(xiàn),從電腦預(yù)測到現(xiàn)實世界技術(shù),這條路可以不好走,F(xiàn)存的數(shù)據(jù)庫還遠不能包含所有已知的材料,更別說所有有可能性的材料了。對于某些材料而言,數(shù)據(jù)驅(qū)動下的發(fā)現(xiàn)很管用,但是,對其他材料而言,未必如此。而且,甚至在電腦挑選出一種有趣的材料后,在實驗室里合成它,仍然花費數(shù)年!肝覀兘(jīng)常更了解應(yīng)該做什么,勝過如何制造它!笴eder 說道。
這個領(lǐng)域的研究者們?nèi)匀缓茏孕牛河幸慌热ケ话l(fā)現(xiàn)的化合物,這些化合物能推動電子、能源、機器人、醫(yī)療保健和交通等領(lǐng)域的創(chuàng)新!肝覀冋趯⒃S多拼圖的不同部分拼湊起來,」Giulia Galli,一名芝加哥大學(xué)的計算材料科學(xué)家,說「當(dāng)不同部分組成一幅完整圖形時,對材料的預(yù)測就會成為現(xiàn)實!
基因的靈感
21世紀(jì)初,Ceder 想到了這種高通量、數(shù)據(jù)驅(qū)動的材料發(fā)現(xiàn)研究方法,那時 ,Ceder 還在 MIT 學(xué)習(xí)并從幾近完成的人類基因組計劃( Human Genome Project)中受到啟發(fā)!妇瓦@個計劃本身來說,人類基因組并不是新治療方案的秘方,」他說,「但是,它為醫(yī)學(xué)研究提供了客觀數(shù)量的基礎(chǔ)、定量信息,作為研究的出發(fā)點。」材料科學(xué)家可以從基因?qū)W家那里學(xué)到什么嗎?他不禁好奇。他們能不能辨認一種「材料基因組」(materials genome)——如 Ceder 所說的 ——編碼各種化合物的性質(zhì),就像生物信息被編碼進 DNA 堿基對一樣?
如果可以,他推理道,編碼過程必須發(fā)生在組成給定材料的原子和電子中,發(fā)生在它們的晶狀結(jié)構(gòu)中:亦即空間安排方式。2003 年, Ceder 和他的團隊首次展示了一個量子力學(xué)計算數(shù)據(jù)庫如何幫助預(yù)測了一種金屬合金最可能的晶體結(jié)構(gòu)——對于任何從事新材料發(fā)明的人來說,這是關(guān)鍵一步。
過去,即使對超級計算機來說,這樣的計算也是既耗時又困難的。機器必須經(jīng)歷一系列的試驗和錯誤來尋找到「基態(tài)(ground state)」:一種能量最低且受力均衡的電子排布以及晶體結(jié)構(gòu)。但是,在 2003 年發(fā)表的論文中, Ceder 的團隊描述了一種捷徑。研究人員針對一個二元合金(由兩種不同合金元素組成的合金)的數(shù)據(jù)庫,計算出常見晶體結(jié)構(gòu)的能量 ,然后設(shè)計了一種機器學(xué)習(xí)算法,這種算法可以從庫中提取模式,猜測一種新型合金最可能的基態(tài) 。該算法效果很好,削減了計算所需的計算時間(參見下圖)。

智能搜索
人工智能幫助研究者們梳理巨量的材料信息,并找到他們手頭應(yīng)用所需要的那幾款
從已知材料的實驗室數(shù)據(jù)與電腦模型開始
機器學(xué)習(xí)提取共有模式
結(jié)果引導(dǎo)對新材料的預(yù)測
研究者們尋找擁有特定的、預(yù)測特質(zhì)的材料
化學(xué)家們嘗試著制造出可以接受真實世界檢驗的候選材料
「那篇論文介紹了有關(guān)材料性質(zhì)的公共數(shù)據(jù)庫的想法,以及運用數(shù)據(jù)挖掘來填補缺失部分的想法,」Stefano Curtarolo 說。他在同一年離開了 Ceder 團隊并在杜克大學(xué)創(chuàng)建了自己的實驗室。這個想法孕育了另外兩個獨立的項目。 2006 年, Ceder 在 MIT 開始了材料基因組項目(Materials Genome Project),通過運用改良版本的算法,預(yù)測電動汽車電池的鋰基材料。截止 2010 年,這個項目已經(jīng)包含了大約兩萬種預(yù)測到的化合物!肝覀儚囊阎牟牧先胧,修改它們的晶體結(jié)構(gòu) ——也就是先改變其中一個元素,再計算會發(fā)生什么,」 Kristin Persson,一位 Ceder 團隊的前成員,說道。她在 2008 年加入位于加州的勞倫斯伯克利國家實驗室( Lawrence Berkeley National Laboratory)后,繼續(xù)與這個項目進行合作。
與其同時,Curtarolo 在杜克大學(xué)創(chuàng)辦了材料基因組中心(Center for Materials Genomics),研究方向主要是金屬合金。他與來自猶他州普若佛市的楊百翰大學(xué)(Brigham Young University)和以色列的內(nèi)蓋夫核研究中心(Negev Nuclear Research Center)的研究人員們組建團隊,逐漸將 2003 算法數(shù)據(jù)庫擴展為 AFLOW,這個系統(tǒng)可以以已知的晶體結(jié)構(gòu)為基礎(chǔ),完成計算任務(wù),自動預(yù)測新的晶體結(jié)構(gòu)。
原團隊以外的研究者們也開始對這個高通量計算方式表示興趣。其中之一便是化學(xué)工程師 Jens N?rskov。在位于靈比的丹麥技術(shù)大學(xué)(Technical University of Denmark)時,他因為要研究將水分解成氫和氧的催化劑而開始接觸這個算法,后來以加州斯坦佛大學(xué) SUNCAT 催化劑計算研究中心(SUNCAT Center)總監(jiān)的身份拓展了這個研究。另一位便是參與開發(fā) Quantum Espresso 軟件的 Marzari。2009年,Quantum Espresso 軟件開始用于量子力學(xué)運算。這個算法便是文章開始時在他的手機視頻上滾動的代碼。
材料基因組學(xué)
盡管如此,直到 2011 年六月,當(dāng)白宮宣布百萬美金的材料基因組倡議(Materials Genome Initiative,MGI)時,計算材料科學(xué)才逐漸成為主流!府(dāng)白宮的人們開始熟悉 Ceder 的研究時,他們十分得激動,」James Warren,美國國家標(biāo)準(zhǔn)和技術(shù)研究所(National Institute of Standards and Technology)的材料科學(xué)家、同時也是材料基因組倡議的執(zhí)行秘書,說道!冈谶@之前,人們就有了一個大概意識,計算機模擬已經(jīng)到達了可以對創(chuàng)新和制造帶來真實影響的程度,」他說——更別提「基因組」大名,這讓人聯(lián)想到某種宏大敘事。
2011 年以來,這個倡議已經(jīng)投入了2.5億美元,對象包括軟件工具、收集與報道實驗數(shù)據(jù)的標(biāo)準(zhǔn)化方法、主要大學(xué)的計算材料科學(xué)中心、以及大學(xué)與商業(yè)部門就特定用途展開的研究合作等。但是,尚不清楚的是,這筆投資到底在多大程度上推進了科學(xué)研究!高@個倡議帶來了很多好的東西,同時也有一些偏差,」Ceder說道!赣腥碎_始說,他們的研究是關(guān)于這個基因組或者那個基因組,其實,這些研究跟基因組沒什么關(guān)系!
但是,可以確定的是,這個材料基因組倡議意在幫助 Ceder 和其他的人實現(xiàn)材料性質(zhì)在線數(shù)據(jù)庫的宏大愿望。2011 年末,在白宮要求他們放棄「基因組」這個標(biāo)簽以避免混淆后,Ceder 和 Persson 以材料項目(the Materials Project )的形式重新開始了他們的材料基因組項目。在接下來的一年,Curtarolo 以他在杜克大學(xué)研發(fā)的一款軟件為基礎(chǔ),發(fā)布了他自己的數(shù)據(jù)庫,名為 AFLOWlib。接著在 2013 年,Chris Wolverton, 一位西北大學(xué)(Northwestern University)的材料研究者開啟了開放量子材料數(shù)據(jù)庫(the Open Quantum Materials Database)。「我們從材料項目和 AFLOWlib 獲取到了許多的靈感,」Wolverton說,「然而,我們的軟件和數(shù)據(jù)是完全原創(chuàng)的!
所有這三個數(shù)據(jù)庫,共享著約五萬種已知材料的核心,這些材料來自一個被廣泛使用的實驗數(shù)據(jù)庫,無機晶體結(jié)構(gòu)數(shù)據(jù)庫(Inorganic Crystal Structure Database)。這些材料都是至少在實驗室中被創(chuàng)造出過一次并在論文中被描述過的固體,但是,它們的電磁性能還沒有完全被檢測到;它們將會是新型材料衍生的起點。
三個數(shù)據(jù)庫的區(qū)別在于它們所包括的假定的材料。The Materials Project 包括的相對較少,始于大約15,000個計算結(jié)構(gòu),這些結(jié)構(gòu)源自 Ceder 和 Persson 對鋰電池的研究。「我們只是將它們涵蓋在數(shù)據(jù)庫中,如果我們確信計算是準(zhǔn)確的,在一個合理條件下,它們是可以被制造的,」Persson 說。另外大約13萬,是由在明尼蘇達的明尼阿波利斯大學(xué)的納米多孔材料基因組中心預(yù)測出的結(jié)構(gòu)。后者研究沸石和金屬 - 有機骨架:在其晶體結(jié)構(gòu)內(nèi)有著規(guī)律孔的海綿似的材料,可以吸收氣體分子,并且可以用來儲存甲烷或二氧化碳。
AFLOWlib 是最大的數(shù)據(jù)庫,擁有超過一百萬種不同的材料和大約1億的計算性能。這是因為它包含成千上萬的假設(shè)材料,這其中僅僅只有一小部分存在于現(xiàn)實世界里。Curtarolo 說,「但是,當(dāng)想要預(yù)測一種材料究竟是如何被制造出來時,卻要付出很多努力!估,他正在從 AFLOWlib 數(shù)據(jù)庫中調(diào)取數(shù)據(jù),研究為什么一些合金能夠形成金屬玻璃——一種特殊的金屬,有著無序的微觀結(jié)構(gòu),從而表現(xiàn)出特殊的電磁性能。事實證明,能夠形成金屬玻璃的材料與不能的材料之間的差異,取決于不穩(wěn)定晶體結(jié)構(gòu)的數(shù)量和能量,這些不穩(wěn)定結(jié)構(gòu)在合金冷卻時與基態(tài)原子相「競爭」,掙脫基態(tài)的束縛從而形成金屬玻璃。
沃爾弗頓的 OQMD 數(shù)據(jù)庫包含約40萬假定材料,通過從自然觀察中得出一個晶體結(jié)構(gòu)的列表以及從元素周期表9中的每一個部分選擇元素「修飾」這些假定材料,從而計算得到的這些數(shù)據(jù)庫。它具有相當(dāng)寬范圍的鈣鈦礦——其晶體結(jié)構(gòu)通常展示出相當(dāng)吸引人的特性,例如,超導(dǎo)性和作為微電子開發(fā)在太陽能電池中的應(yīng)用。顧名思義,這個項目在這三個中是最開放的:用戶可以下載整個數(shù)據(jù)庫到自己的電腦,而不僅僅是單個搜索結(jié)果。
所有數(shù)據(jù)庫都在程序中運行,他們策劃人仍然花費相當(dāng)一部分時間來增加更多的化合物以及完善的計算 。他們認為,這些還是遠遠不夠完善。這些代碼往往在預(yù)測晶體是否穩(wěn)定方面性能相當(dāng)不錯,但在預(yù)測如何吸收光線或?qū)щ娦阅芊矫娌惶茫袝r,預(yù)測出的半導(dǎo)體看起來像金屬。Marzari 指出,即使是在計算材料學(xué)最有成功經(jīng)驗的電池材料領(lǐng)域,標(biāo)準(zhǔn)計算仍然有平均半伏的誤差,導(dǎo)致性能方面存在許多差異!甘聦嵤,理論本身存在一些錯誤:我們可能永遠無法改正,」Curtarolo 說。
每個團隊都正在開發(fā)自己的技術(shù)來調(diào)整計算以及彌補這些系統(tǒng)誤差。然而,在他們已經(jīng)用數(shù)據(jù)做科研的同時,來自其他團隊的用戶也在這么做。The Marerials Project 確定了幾個有前景的陰極材料,在鋰電池中使用效果比現(xiàn)有的要好一些,同時確定了在太陽能電池中可以提高陽光吸收效率和能量轉(zhuǎn)化效率的幾種金屬氧化物。今年早些時候,來自都柏林圣三一學(xué)院的研究人員使用 AFLOWlib 數(shù)據(jù)庫預(yù)測20哈斯勒合金,一類可被應(yīng)用于傳感器或電腦記憶體的磁鐵,他們成功地合成了兩種該類合金,確認了它們的磁特性非常接近預(yù)測結(jié)果。
歐洲擴張
材料基因組學(xué)已經(jīng)傳播到歐洲——盡管通常用的是其它名字。例如,瑞士創(chuàng)建了 MARVEL,一個為計算材料科學(xué)而成立的機構(gòu)網(wǎng)絡(luò),這個網(wǎng)絡(luò)由 EPFL 領(lǐng)導(dǎo),Marzari 做為主管。使用一個新的計算平臺,Marzari 創(chuàng)建一個名為材料云的數(shù)據(jù)庫,用來搜索「二維」的材料,如石墨,它僅僅由一層原子或分子構(gòu)成。這樣的材料,應(yīng)用范圍可以從納米電子擴展到生物醫(yī)學(xué)領(lǐng)域。為了找到更好的候選材料,Marzari 正在對超過 15 萬的已知材料進行他所謂的「計算剝皮」:計算從一個普通晶體的表面分離出單層結(jié)構(gòu)會消耗多少能量。截止到今年下半年向公眾公布這些數(shù)據(jù)庫的時候,他預(yù)計初步可產(chǎn)生 1500 種二維結(jié)構(gòu),它們有潛在希望用于實驗測試。
在 Sion 幾公里以外的瑞士阿爾卑斯山之巔,計算化學(xué)家 Berend Smit 成立了另一個 EPFL 中心,旨在開發(fā)出能夠預(yù)測成千上萬的納米多孔沸石和金屬有機框架的算法。也包括其他一些算法:一個算法使用面部識別軟件派生的技術(shù)掃描特定氣孔的形狀,從而挑選出從化石燃料發(fā)電廠的煙道吸收二氧化碳最佳的備選材料。
Smit 的工作還表明,材料基因組學(xué)也會帶來壞消息。許多研究人員曾希望利用納米多孔材料打造用更小的空間存儲更多甲烷的汽車罐。但篩查超過 65 萬種計算材料后,Smit 團隊得出結(jié)論,大部分的最好材料已經(jīng)投入應(yīng)用。新的選擇可能只帶來輕微的改善,而且目前美國機構(gòu)設(shè)置的能源目標(biāo)(押注重大技術(shù)改進甲烷存儲)可能是不切實際的。
正如這些耐人尋味的例子,在材料基因組學(xué)能夠?qū)崿F(xiàn)其期望以前,仍然有許多障礙需要克服。其中最大的一個障礙就是,計算機模擬只是給出了一些在實驗室制造有趣材料的部分線索,更不要提大規(guī)模生產(chǎn)了!肝覀円恢睂χ圃煨禄衔镉幸恍┯腥さ南敕ā笴eder 說,「有時候,花兩個星期的時間就可以做出來。但有些時候,半年過去了,我們?nèi)匀粺o法做出來,不知道是我們沒有按照正確的方式做,還是它就是不能夠被制造出來!
Ceder 和 Curtarolo 正在努力開發(fā)機器學(xué)習(xí)算法,從而從已知的制造工藝中提取方法,指導(dǎo)化合物的合成。
另一個限制是,迄今為止,材料基因組學(xué)一直被專門用于工程師所謂的功能材料--即可以實現(xiàn)某種功能的化合物,例如太陽能電池吸收光或者讓晶體管導(dǎo)通電流。但該技術(shù)不被用于研究鋼這樣的結(jié)構(gòu)材料,而這樣的材料是被需要的,例如,飛機機翼、橋梁或發(fā)動機都需要鋼材。不被用于這種材料是因為材料的彈性和硬度這樣的機械性能依賴于加工過程, 這是不能通過量子力學(xué)代碼描述的。
即使是在功能材料領(lǐng)域,目前的計算機代碼只能很好地對完整晶體結(jié)構(gòu)進行分析。 這只是材料領(lǐng)域的一小部分 !肝磥碜钣腥さ牟牧峡赡軙詣(chuàng)造性的方式在微觀層面進行組裝」Galli 說。它們可能是納米顆粒和晶體結(jié)構(gòu)中特地布入缺陷的組合物,或者是纏結(jié)了不同化合物和相的異質(zhì)材料。為了預(yù)測這種材料,Galli說,「你需要一次性計算許多性能,以及計算在特定溫度和時間下系統(tǒng)如何變化」。「有方法可以做到這一點,」她說,「但在高通量研究中使用計算的方法太過昂貴」。
在短期內(nèi),更多的實驗數(shù)據(jù)交換可以對計算進行現(xiàn)實檢查,并幫助完善它們。為此,Ceder 正在與麻省理工學(xué)院從事軟件研究的團隊進行合作,這種軟件可以讀取實驗類材料科學(xué)的論文,并自動以標(biāo)準(zhǔn)格式提取晶體結(jié)構(gòu)的信息!肝覀冇媱濋_始在幾個月內(nèi)將這些數(shù)據(jù)傳送到材料項目」他說。
從長遠來看,一些幫助將來自摩爾定律:隨著計算能力的不斷提高,一些超出目前計算的技術(shù)可能很快變得可用。
「我們已經(jīng)擺脫了計算材料科學(xué)的手工時代,進入了產(chǎn)業(yè)化階段,」Marzari說,「我們現(xiàn)在可以創(chuàng)建模擬裝配鏈進行工作,還可以用全新的方法探究問題。」只是現(xiàn)在市場上還沒有計算預(yù)測的材料!傅侨绻 10 年后再說,」Gall 表示,「我認為會出現(xiàn)很多!
本文由機器之心編譯
|
|