作者:Stacey Higginbotham
機(jī)器之心編譯 參與:周亮、微胖、李亞洲
當(dāng)你下一次運(yùn)行 Facebook 時(shí),無(wú)論是網(wǎng)頁(yè)版還是 App,你可以仔細(xì)想一下,個(gè)人頁(yè)面刷新、家庭相冊(cè)瀏覽等這些操作會(huì)需要多少計(jì)算量,然后再乘以十億用戶(hù),而且每一天都如此。
這不僅是運(yùn)營(yíng)一家「財(cái)富500強(qiáng)」(第242位)的社交網(wǎng)絡(luò)公司,也是在運(yùn)營(yíng)異常龐大的支撐各種服務(wù)的計(jì)算基礎(chǔ)架構(gòu),包括處理器、存儲(chǔ)器以及知道用戶(hù)各種需求的軟件。
Facebook 為全世界五分之一人口提供服務(wù),而且去年年底,全球32億人口中有超過(guò)一半的人成為了互聯(lián)網(wǎng)戶(hù)。此時(shí),這不是一個(gè)不理性的問(wèn)題:地球上有足夠多的人來(lái)驅(qū)動(dòng)這樣一張巨型網(wǎng)絡(luò)嗎?
回答是否定的,至少是負(fù)擔(dān)不起的。這就是 Facebook 求助人工智能的原因。
五年前,F(xiàn)acebook 推出 Open Computer 硬件倡議,他們這么做的原因是為用戶(hù)提供 News Feed 服務(wù)的成本完全就是產(chǎn)品銷(xiāo)售成本,即便對(duì)于這樣一個(gè)當(dāng)時(shí)擁有7.4億用戶(hù)的網(wǎng)站。因此,打造公司自己的計(jì)算基礎(chǔ)架構(gòu),讓博文發(fā)布更快,成本更低,成為公司的基礎(chǔ)需求。
Facebook 表示,公司已經(jīng)從對(duì) Open Compute 的投資中節(jié)省了超過(guò)20億美元。但在互聯(lián)網(wǎng)領(lǐng)域,五年就是一個(gè)世代,如今每個(gè)科技巨頭都在設(shè)法征服另一個(gè)難題。雖然他們可以低成本的提供內(nèi)容服務(wù),但在數(shù)十億博文中,要搞清楚推送哪類(lèi)內(nèi)容依然有很大挑戰(zhàn)。因此,就像 Facebook 五年前通過(guò) Open Compute 計(jì)劃開(kāi)始重新搭建硬件產(chǎn)業(yè)一樣,最近,公司也創(chuàng)造了一個(gè)管理人工智能的內(nèi)部平臺(tái),如此一來(lái),就能精準(zhǔn)推送你想看的內(nèi)容。而且,公司也希望將這個(gè)「機(jī)器學(xué)習(xí)」平臺(tái)規(guī);。(「機(jī)器學(xué)習(xí)」是一種人工智能類(lèi)型,能讓計(jì)算機(jī)在沒(méi)有預(yù)編程的前提下學(xué)習(xí)如何運(yùn)行。)
「我們正試著打造超過(guò) 15 億個(gè)人工智能代理(AI agents)——為每個(gè)使用 Facebook 或公司其他產(chǎn)品的每一個(gè)人服務(wù)!剐陆闪⒌臋C(jī)器學(xué)習(xí)應(yīng)用組負(fù)責(zé)人 Joaquin Candela 說(shuō),「那我們應(yīng)該怎么做到呢?」
Candela 說(shuō),你要從以前的勝利中汲取靈感。Facebook 的基礎(chǔ)架構(gòu)團(tuán)隊(duì)也是機(jī)器學(xué)習(xí)應(yīng)用團(tuán)隊(duì)的靈感之源。
「我們傾向?qū)⒅T如存儲(chǔ)、網(wǎng)絡(luò)設(shè)計(jì)以及計(jì)算視為理所當(dāng)然的事情,」他說(shuō),「當(dāng)視頻小組做直播視頻時(shí),人們并沒(méi)有意識(shí)到這件事的量級(jí)。這很愚蠢。而基礎(chǔ)架構(gòu)小組就是在那個(gè)地方傳遞魔力——將不可能變?yōu)榭赡。我們需要?duì)人工智能做同樣的事情。也需要將人工智能變成你們認(rèn)為理所當(dāng)然的工程結(jié)構(gòu)中的一部分,如此完整的一部分!
去年九月,F(xiàn)acebook 成立了機(jī)器學(xué)習(xí)應(yīng)用團(tuán)隊(duì)(Applied Machine Learning team)。團(tuán)隊(duì)負(fù)責(zé)運(yùn)行一個(gè)覆蓋全公司的機(jī)器學(xué)習(xí)內(nèi)部平臺(tái),叫做 FBLearner Flow ,這個(gè)平臺(tái)就相當(dāng)于人工智能領(lǐng)域的 Open Computer ,不過(guò)最大的區(qū)別在于:它并不會(huì)依托于開(kāi)源硬件來(lái)提供給世界。公司說(shuō),如果沒(méi)有 Facebook 手頭數(shù)據(jù),這個(gè)平臺(tái)本質(zhì)上沒(méi)啥用。
FBLearner Flow 結(jié)合了幾個(gè)機(jī)器學(xué)習(xí)模型并用于處理幾十億數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)來(lái)自網(wǎng)站15億用戶(hù)的活動(dòng),并能對(duì)數(shù)千件事情進(jìn)行預(yù)測(cè):圖片中有哪位用戶(hù),哪些可能是垃圾信息。FBLearner Flow 模型創(chuàng)造的算法有助于界定什么樣的內(nèi)容出現(xiàn)在你的動(dòng)態(tài)消息中,以及你會(huì)看到什么樣的廣告。
基于以上內(nèi)容,我們會(huì)很容易得出結(jié)論:Facebook 使用人工智能會(huì)讓公司13,000雇員中的某些人失去工作。「但現(xiàn)實(shí)并沒(méi)有什么變化,」公司 CTO Mike Schroepfer 說(shuō)。人工智能恰恰是在幫助公司提升工程師的能力。他說(shuō),「我們能做之前無(wú)法做到的事情!
Applied Machine Learning 主任 Joaquin Qui?onero Candela
在 Schroepfer 看來(lái),F(xiàn)acebook 經(jīng)常能夠發(fā)現(xiàn)那些好機(jī)會(huì),即便自己還沒(méi)有能力去征服——至少在人類(lèi)力量的范圍內(nèi)還無(wú)法解決?匆幌鹿咀罱l(fā)起的一項(xiàng)新功能,為視覺(jué)受損人提供圖片說(shuō)明(以讓其「看到」圖片)。如果公司雇人手動(dòng)為上傳到網(wǎng)絡(luò)的每張圖片內(nèi)容做標(biāo)記,成本會(huì)非常高,也無(wú)法規(guī);,當(dāng)然也不可能期待用戶(hù)自己來(lái)做這個(gè)事情。但不管對(duì)于視覺(jué)受損人士,還是對(duì)于 Facebook,這些信息都是有用的。現(xiàn)在通過(guò)使用 FBLearner Flow 平臺(tái)上的計(jì)算機(jī)視覺(jué)模型,一臺(tái)計(jì)算機(jī)就能自動(dòng)梳理數(shù)十億張圖片并給照片加上標(biāo)簽,并實(shí)現(xiàn)了較為理想的準(zhǔn)確率。
「它正在讓新應(yīng)用成為可能,特別是規(guī);鉀Q問(wèn)題!筍chroepfer 說(shuō)。Facebook 使用這種基于機(jī)器學(xué)習(xí)的辦法來(lái)翻譯 News Feed 博文;在用戶(hù)看到之前監(jiān)測(cè)到網(wǎng)站不合適的內(nèi)容;在打造 M 過(guò)程中,公司通過(guò)人與機(jī)器的結(jié)合去打造一個(gè)私人助理。
Facebook 并非唯一一家實(shí)驗(yàn)人工智能的大型互聯(lián)網(wǎng)公司。谷歌、亞馬遜、微軟和百度都在相關(guān)技術(shù)上注入重資。隨著我們將更多的日常生活托付給數(shù)字王國(guó),這一點(diǎn)將變得越來(lái)越明顯:那些建造了我們所依賴(lài)(日常信息、社交和多媒體等)的網(wǎng)站的那些人已經(jīng)無(wú)法勝任后續(xù)工作了,讓機(jī)器登場(chǎng)。
自上個(gè)月起,大約有750 名Facebook 工程師和 40 個(gè)不同產(chǎn)品團(tuán)隊(duì)正在使用 FBLearner Flow 平臺(tái)。公司希望截至到六月底,會(huì)有 1000 名工程師使用這個(gè)平臺(tái)。Facebook 最終想要建立一個(gè)對(duì)非工程師人員來(lái)說(shuō)也非常容易使用的機(jī)器學(xué)習(xí)工具,盡管距離這一目標(biāo)還很遙遠(yuǎn)。
機(jī)器學(xué)習(xí)迅速變成最火的人工智能形式,也是人工智能的——隨著新計(jì)算技術(shù)出現(xiàn),近期,這個(gè)有著幾十年歷史的科幻電影的標(biāo)配歷經(jīng)了一次重生——組成部件。隨著計(jì)算機(jī)系統(tǒng)越來(lái)越大、越來(lái)越復(fù)雜,很明顯的是:它已不足以支撐計(jì)算機(jī)如何詮釋數(shù)據(jù)的硬編規(guī)則(hard-code rules)。依據(jù)圣經(jīng)的勸告去教一個(gè)人釣魚(yú)——或者在這種情況下,教計(jì)算機(jī)如何詮釋自己的數(shù)據(jù),要更加容易得多。
計(jì)算機(jī)學(xué)家使用各樣的工具教計(jì)算機(jī)學(xué)習(xí)。如今絕大多數(shù)努力集中在「監(jiān)督學(xué)習(xí)」上,研究人員以現(xiàn)有的數(shù)據(jù)集為基礎(chǔ)建立一個(gè)機(jī)器學(xué)習(xí)算法,用來(lái)訓(xùn)練計(jì)算機(jī)。比如,教計(jì)算機(jī)識(shí)別面部,你最好用不同面部數(shù)據(jù)庫(kù)訓(xùn)練它,計(jì)算機(jī)就能學(xué)會(huì)如何分辨不同的人臉。機(jī)器學(xué)習(xí)的圣杯是「無(wú)監(jiān)督學(xué)習(xí)」,計(jì)算機(jī)只得到數(shù)據(jù)類(lèi),自己建立模型對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。換言之,不同于直接給計(jì)算機(jī)學(xué)習(xí)的人臉圖像,計(jì)算機(jī)得到圖像后要把相似數(shù)據(jù)聚類(lèi),從中推導(dǎo)出問(wèn)題圖片上的圖像是否是人臉。
無(wú)監(jiān)督學(xué)習(xí)就是人類(lèi)學(xué)習(xí)的方式,而且 Facebook 已經(jīng)直言不諱得表明,自己努力教授計(jì)算機(jī)通識(shí)。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)團(tuán)進(jìn)行。FAIR成立于 2013 年底,是一個(gè)進(jìn)行基礎(chǔ)研究的地方。它與應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)相對(duì)獨(dú)立存在,盡管這里進(jìn)行的一些研究在 FBLearner Flow 上找到了用武之地。
Facebook 的 CTO Mike Schroepfer
就像 Candela 解釋的那樣,你可以把 AML 團(tuán)隊(duì)視為 FAIR 的商業(yè)化部門(mén)。這里的深度科學(xué)慢慢滲入到服務(wù)于十憶用戶(hù)的產(chǎn)品中。除了它做不到的時(shí)候。Schroepfer 說(shuō),在這里,并不是所有的研究都要將深度科學(xué)運(yùn)用到某個(gè)產(chǎn)品中,盡管他警告說(shuō),F(xiàn)AIR(有 50 位研究人員)和 AML (雇傭了 100 位研究人員)已經(jīng)自己支付了費(fèi)用。
比如,在自家翻譯模型的支持下,F(xiàn)acebook 現(xiàn)在每天使用機(jī)器學(xué)習(xí)翻譯20億條 News Feed 條目,不再依賴(lài)微軟必應(yīng)的翻譯服務(wù)。Facebook 也使用 AML 團(tuán)隊(duì)的平臺(tái),在衛(wèi)星圖像上應(yīng)用計(jì)算機(jī)視覺(jué)模型繪制人口密度地圖,最終確定發(fā)展中國(guó)家的哪些地方需要寬帶服務(wù)。而且在視頻添加說(shuō)明的嘗試已被證明是越來(lái)越受歡迎的,因?yàn)榉窒砗忘c(diǎn)贊增加了 15%,瀏覽時(shí)間增加了 40%。
這些是 Facebook AML 團(tuán)隊(duì)最新成果中的一部分,但是,他們已經(jīng)在建立機(jī)器學(xué)習(xí)算法上花了十年時(shí)間:2016 年,他們第一次嘗試在 News Feed 上使用深度學(xué)習(xí)。
「News Feed 是我們第一次為用戶(hù)嘗試這項(xiàng)艱難的工作」Schroepfer 說(shuō)。這是初步的嘗試,Schroepfer 表示,但即使這樣,F(xiàn)acebook 雇傭再多的編輯人員也不能滿(mǎn)足百萬(wàn)用戶(hù)所需的 News Feeds。
從此,這家公司對(duì)機(jī)器學(xué)習(xí)的使用日趨先進(jìn)。但是,直到去年六月份Facebook 圖片分享服務(wù) Moment 發(fā)布,公司才真正開(kāi)始公開(kāi)討論對(duì)機(jī)器學(xué)習(xí)的深入研究如何正在影響新產(chǎn)品。Moments 使用了 Facebook 圖像識(shí)別模型,能讓用戶(hù)創(chuàng)造面向選定組群開(kāi)放的私人相冊(cè),比如,只對(duì)照片中的人公開(kāi)。
產(chǎn)品發(fā)布時(shí),F(xiàn)acebook 說(shuō)它的圖像識(shí)別模型識(shí)別人臉準(zhǔn)確率高達(dá) 98%,即使不是正對(duì)相機(jī)的面部圖像。它還表示,模型能在 5 秒內(nèi),從 8 億圖片中識(shí)別出某張圖片中的人。
人們對(duì)此感到害怕。本來(lái)是想以一種半隱私的方式輕松分享圖片,結(jié)果惹惱了許多用戶(hù)。這一功能迫使用戶(hù)面對(duì)這樣一個(gè)不安的事實(shí):Facebook 能從 十億多的用戶(hù)中識(shí)別出他們,而且速度還快的不正常。Facebook 甚至不能在歐洲發(fā)布這一功能,因?yàn)橛|及有關(guān)隱私和面部識(shí)別技術(shù)的相關(guān)法規(guī)。
對(duì)隱私的擔(dān)心顯露出機(jī)器學(xué)習(xí)利他主義的陰暗一面。數(shù)據(jù)驅(qū)動(dòng)下的功能,讓 Facebook 的產(chǎn)品用起來(lái)更方便。但是,它們也讓公司得以維系用戶(hù)對(duì)平臺(tái)的持續(xù)使用,這也反過(guò)來(lái)讓其賣(mài)出更多、更有效的廣告。
為此 Facebook 每天要進(jìn)行數(shù)十萬(wàn)億次的查詢(xún),以便能每秒做出六百萬(wàn)個(gè)預(yù)測(cè)。Facebook 用數(shù)十億個(gè)數(shù)據(jù)點(diǎn)來(lái)訓(xùn)練支撐其 News Feed 的算法。這家公司每十五分鐘到兩小時(shí)就更新一次它的學(xué)習(xí)模型,以便能對(duì)當(dāng)下事件作出快速反應(yīng)。
當(dāng)一臺(tái)電腦能從語(yǔ)法上分析那么多的信息并作出判斷時(shí),這也是令人不安地提醒我們,我們數(shù)字生活的每個(gè)方面都正在被它以向廣告商、研究人員甚至政府展示我們私下想法和行動(dòng)的方式分割、切片再切塊。同樣棘手的是,機(jī)器學(xué)習(xí)算法還有可能會(huì)犯錯(cuò)。
而且這些都還不能解釋這一事實(shí):許多人甚至還不知道,機(jī)器學(xué)習(xí)算法正在改變他們對(duì)產(chǎn)品的體驗(yàn)。一個(gè)人沒(méi)有看到自己的News Feed 中的某個(gè)內(nèi)容的原因或許在于算法把這個(gè)內(nèi)容過(guò)濾了。2014 年,麻省理工學(xué)院的一項(xiàng)研究發(fā)現(xiàn),62.5% 的研究參與者都沒(méi)有意識(shí)到 Facebook 過(guò)濾了他們的 News Feed 。
「最好的人工智能算法能泛化,他們能預(yù)測(cè)你想要什么,但它們從來(lái)都不是完美的,」Candela 說(shuō)。這也是 Schroepfer 之所以相信 Facebook 距離「把一切都交給人工智能技術(shù)」還很遙遠(yuǎn)的理由之一。
「我認(rèn)為,你仍要人處在決策環(huán)中,」Schroepfer 說(shuō)!肝覀冋跒樗藙(chuàng)造產(chǎn)品,而我很難相信機(jī)器能計(jì)算出其他人想要什么,哪怕是使用這些高級(jí)科技。」
Schroepfer 說(shuō),這一工作都是為了打造一個(gè)社交網(wǎng)絡(luò),能夠更好地預(yù)期用戶(hù)想要看到什么或體驗(yàn)。如果你這一天過(guò)得很糟糕,他希望 Facebook 能給你看一段詼諧的小貓視頻。如果你有一星期都沒(méi)和你母親聊過(guò)天,他希望 Facebook 能識(shí)別出這一點(diǎn)并主動(dòng)為你推送一些關(guān)于她的生活的信息更新。
「Facebook 當(dāng)下的問(wèn)題是,關(guān)于你想要什么,你告訴我們的東西還不夠多!筍chroepfer 說(shuō)!肝覀?cè)谂Σ聹y(cè)你想要什么。問(wèn)題的一部分是,我們不知道該問(wèn)你什么,而當(dāng)你告訴我們你想要什么的時(shí)候,我們也不確定對(duì)此該做些什么。因?yàn)槲覀兊南到y(tǒng)還沒(méi)有真正在這方面安排好、優(yōu)化好!
應(yīng)用機(jī)器學(xué)習(xí)( Applied Machine Learning)團(tuán)隊(duì)的建立為創(chuàng)建這樣的系統(tǒng)提供了機(jī)會(huì)。同時(shí),F(xiàn)AIR 團(tuán)隊(duì)也提供了機(jī)會(huì)讓我們能建立關(guān)于「如何讓機(jī)器去學(xué)習(xí)」的更好理解。
Facebook 做出了以這種方式在人工智能研究方面高歌猛進(jìn)的決定,與競(jìng)爭(zhēng)者們相比,它這么做有些不同尋常。
例如,微軟旗下的研究院擁有一支龐大的人工智能研究隊(duì)伍,但微軟并沒(méi)有把這方面的努力移交給一個(gè)商業(yè)化團(tuán)隊(duì),再讓這商業(yè)化團(tuán)隊(duì)把它轉(zhuǎn)化成供內(nèi)部使用的產(chǎn)品。相反,研究人員會(huì)直接與產(chǎn)品團(tuán)隊(duì)的人一起工作,建立使用深度學(xué)習(xí)的工具或新的服務(wù)。
據(jù)微軟研究院院長(zhǎng) Peter Lee 說(shuō),在對(duì)外方面,微軟正在試圖建立一個(gè)為機(jī)器學(xué)習(xí)提供服務(wù)的平臺(tái),并通過(guò)它的云計(jì)算平臺(tái) Azure 把這些服務(wù)提供給客戶(hù)。
不過(guò),Lee 和 Facebook 的 Schroepfer 在這一點(diǎn)上是一致的:機(jī)器學(xué)習(xí)和人工智能正在使公司們能創(chuàng)建一些新的產(chǎn)品,這些產(chǎn)品在過(guò)去曾因太耗費(fèi)時(shí)間或資源而無(wú)法實(shí)現(xiàn)。
從微軟跳槽到 Facebook 的 Candela 說(shuō), 他有意要在 Facebook 努力創(chuàng)造出一個(gè)不一樣的組織結(jié)構(gòu),因?yàn)樗械疆?dāng)他還在微軟時(shí),好想法無(wú)法在組織中快速散播。每一個(gè)新發(fā)明或新人工智能算法都被封閉在其所在的團(tuán)隊(duì)里。他說(shuō),F(xiàn)acebook 正在努力抵抗這種習(xí)氣。
然而, 卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)院院長(zhǎng) Andrew Moore 懷疑,像 FBLearner Flow 這樣的人工智能平臺(tái)真的能在一個(gè)組織中得到廣泛應(yīng)用。他說(shuō),大部分的機(jī)器學(xué)習(xí)模型都無(wú)法泛化。
「對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō),有一個(gè)陷阱,據(jù)我所知還沒(méi)有哪家大公司未曾掉入這個(gè)陷阱!顾f(shuō)!缚雌饋(lái)建立一個(gè)平臺(tái)來(lái)支持機(jī)器學(xué)習(xí)算法似乎是很有用的,然而你會(huì)發(fā)現(xiàn),每個(gè)使用機(jī)器學(xué)習(xí)的應(yīng)用程序都需要調(diào)用不同的應(yīng)用程序才能使用機(jī)器學(xué)習(xí)。因此,在機(jī)器學(xué)習(xí)平臺(tái)的建造者和那些試圖用平臺(tái)來(lái)制造產(chǎn)品的客戶(hù)之間常常存在著斷裂!
到現(xiàn)在為止,F(xiàn)acebook 仍然樂(lè)于付出這些努力,而且這些努力似乎也在它的新產(chǎn)品中帶來(lái)了回報(bào)。隨著更多的決策交給算法決定,這家公司有許多事情需要調(diào)整。不過(guò),這個(gè)綜合一切的項(xiàng)目已經(jīng)改變了這家公司衡量其成功的方式。
例如,F(xiàn)acebook 發(fā)起的實(shí)名政策要求人們?cè)谄渚W(wǎng)站上使用真名,而這令跨性別者(他們可能并不認(rèn)同他們出生時(shí)的名字)、美國(guó)原住民的后代(他們的名字不太容易用西方格式表示)和遭受侵犯虐待者(他們需要保留更多的隱私)感到不安。然而,當(dāng)時(shí) Facebook 的算法很難分析這些名字以適應(yīng)這些需求。
Schroepfer 告訴我們,如今 Facebook 用與過(guò)去不同的方式來(lái)劃分它的數(shù)據(jù),從而確保規(guī)模較小的人群沒(méi)有在取平均(averaging)的過(guò)程中被遺失。Schroepfer 說(shuō),F(xiàn)acebook 還組織了面向重點(diǎn)群體和直接用戶(hù)反饋的對(duì)新產(chǎn)品的質(zhì)性評(píng)估。「現(xiàn)在,當(dāng)我們要發(fā)起什么項(xiàng)目,但事先卻不理解怎樣的改變才能更好的為人服務(wù),這樣的情況已經(jīng)極少發(fā)生了。 」
這只是一條漫長(zhǎng)道路的開(kāi)端。毫無(wú)疑問(wèn)人工智能技術(shù)正在使電腦變得更高效,并使我們能夠在前所未見(jiàn)的超大尺度上建立各種系統(tǒng)。人工智能正在幫助 Facebook 擴(kuò)展它的社交網(wǎng)絡(luò)的范圍和性能,同時(shí)并未影響它產(chǎn)生利潤(rùn)。如果幸運(yùn)的話(huà),這些技術(shù)也將幫助我們更好地學(xué)習(xí)如何與機(jī)器一起生活。
|