版權歸原作者所有,如有侵權,請聯(lián)系我們

黃鐵軍 | 機器崛起 智能無疆

格致論道講壇

我們今天不是要回答智能背后的原理是什么,

大腦的奧秘是怎樣的。

我們要先看是什么樣的結構產(chǎn)生了智能,

然后制造這樣的機器去實現(xiàn)智能,

再去研究它產(chǎn)生的奧秘。

微信截圖_20211225092100.png

黃鐵軍 · 北京智源人工智能研究院長

科學大咖講科學 | 北京

大家好,今天我的演講題目是《機器崛起,智能無疆》。

比起“人工智能”,我更喜歡用“機器智能”這個詞。因為人工智能總讓人想到是人類在設計智能,但事實并非如此。機器作為智能的載體,它本身會不斷地發(fā)展、進化。它在發(fā)展時,會帶動智能不斷發(fā)展。

技術科學的無盡疆域

什么是智能呢?這是一個很基礎的也很難定義的概念。你也可以將智能定義為感知、認知,但是這樣的話智能的定義幾乎是無窮無盡的。

我給智能的定義是這樣的:智能是系統(tǒng)通過獲取和加工信息而獲得的一種能力,從而讓系統(tǒng)實現(xiàn)從簡單到復雜的演化。

我的定義有什么特別的地方呢?首先,它說明了智能一定是在某個系統(tǒng)上出現(xiàn)的一種功能,它一定要有一個物理系統(tǒng)作為它的承載者。

第二,智能是這個系統(tǒng)通過獲取和加工信息獲得的一種能力。人通過吃飯能獲取能量讓身體變強壯,但這是動能而不是智能。智能只有通過獲取信息才能發(fā)展,比如看書、看世界、用耳朵獲取信息、與世界互動等等,才有可能對我們的智能發(fā)展帶來作用。

有了這個定義,我們就很容易區(qū)分生物智能和機器智能這兩種智能。從功能或者現(xiàn)象的層次來說,它們可以是相似的,也可以完全不同。

之所以很容易區(qū)分,是因為它們的物理載體是不同的。包括人類在內,生物智能的載體就是有機生物體;而機器智能的載體是包括計算機在內的各種非生物體的機械、機器。

還有一個區(qū)別是,生物智能屬于生命科學領域。生命科學研究的對象是生命,它是自然科學的一部分。物理、化學、生物、天文、地理……任何自然科學都有一個特定的、明確的研究對象。

生命、特別是生命的大腦這樣一個復雜的對象,是我們至今為止已知的宇宙中最復雜的客觀對象。所以,有人就把腦科學、神經(jīng)科學、認知科學這樣一個關于生物智能的學科叫做自然科學的最后的疆域,如果把它搞清楚了,自然科學的所有的問題就能解決了。

相比之下,機器智能以機器為載體,而機器本身是不斷地發(fā)展的。一開始是由人類設計機器,機器變得越來越復雜,它的智能變得越來越強大;將來,機器還可能自己設計機器,所以機器自身也會不斷地迭代發(fā)展。因此,機器智能的功能會越來越多、越來越強大。

那么何處是它的邊界呢?生物智能在不斷地進化,但是進化速度比較慢,它是有邊界的;但是機器進化的速度將來會特別快,它的智能是無窮無盡的,所以說機器智能是技術科學的無盡疆域。

從接受規(guī)則到自主學習

已完成:10% //////////

說起人工智能,大家可能喜歡說它是通過在計算機上寫程序、編算法實現(xiàn)的智能。這其實是一種對機器智能的狹義理解,它們只是實現(xiàn)機器智能的一種途徑。

▲ 狹義機器智能:以計算機為載體的人工智能

按照這樣的觀點,機器智能在過去60多年的發(fā)展歷史中大致可以分成三個階段。

第一個階段大概是在20世紀五六十年代到七十年代初,那時基本的思想是把邏輯、推理這樣的一些規(guī)則賦予機器,也就是我們通常說的編程、寫算法,然后讓機器去執(zhí)行。

這當然是實現(xiàn)智能。但是很明顯,人類是設計者,而機器只不過是一個執(zhí)行者。這一派的觀點發(fā)展了20年左右之后證明,很多問題是解決不了的。

第二個階段是在七八十年代,那時像專家系統(tǒng)、知識工程這樣的一套方法發(fā)展起來。這套方法提出:不僅要向機器灌輸規(guī)則,還得教給它如“北京是中國的首都”這樣的知識。所以那時就設計了大量的知識庫、專家系統(tǒng)。

但是后來人們發(fā)現(xiàn),這樣做還是有問題。因為不是世界上所有的知識都能變成一條一條的條目或是書本上的符號,灌輸給機器的內容有大量都是不可以描述的。

我舉一個例子,我在說“紅色”這個詞時,你的腦子里會有清楚的感受,但這種感受是沒有辦法描述成所謂的知識或者符號的。

第三個階段是上個世紀八十年代到現(xiàn)在,稱為“從數(shù)據(jù)中學習”的階段。即不是靠人來編規(guī)則、編知識,然后讓機器去執(zhí)行,而是讓機器、計算機直接從數(shù)據(jù)里找規(guī)則、找規(guī)律,也就是機器學習的時代。

所以說起狹義人工智能,大概就是按照這樣的三個階段來劃分的。

機器何以獲得智能?

已完成:20% //////////

剛才說的狹義人工智能,總體是符號主義這一流派的思維方式,也就是用符號來表示智能的方方面面,然后用機器去執(zhí)行它。其實除此之外,還有兩個很重要的學術流派,第二個流派叫連接主義,又叫神經(jīng)網(wǎng)絡。第三個叫行為主義,又叫控制論的方法。

如果我們形象地去理解這三種流派或者三種思想的區(qū)別的話,符號主義講的是機器應該能夠思考;連接主義講的是要實現(xiàn)智能就得有一個類似于頭腦、神經(jīng)系統(tǒng)這樣的一個物理載體,所以要制造頭腦;而行為主義認為,如果光有頭腦沒有身體,就無法與環(huán)境互動,也不能形成智能和發(fā)展智能。

第一個流派符號主義的觀點是要把智能的功能和現(xiàn)象用符號進行刻畫。我們在課堂里學的很多知識其實已經(jīng)有老師或者作者把它變成了符號化的東西,我們是去接受它、學習它。記住一個定律、記住一個推導的規(guī)則,廣義地講,這就是符號主義。把符號主義的思想用到智能上,就是把這些符號變成代碼、程序、算法,讓計算機去執(zhí)行。

符號主義取得了很多成果,我舉兩個比較有代表性的例子。

一個就是在人工智能這個概念出現(xiàn)之前,有一套叫“邏輯理論家”的軟件算法系統(tǒng),它能夠證明數(shù)學中的很多定理,在那時是很有名的。它也是1956年人工智能這個概念出現(xiàn)時唯一一個能夠運行的人工智能系統(tǒng)。

▲ 著名數(shù)學家、中國科學院院士吳文俊

另外一個里程碑式的成就是由中國的科學家吳文俊先生創(chuàng)立的。他在1977年提出了吳方法,所有能夠通過機器證明的定理都可以用這種方法來證明。但是這句話是有前提的,即“能夠用機器證明的定理”。事實上不能用機器證明的定理和不可證明的定理大量存在。

第二個流派是行為主義,這種思想的歷史也比人工智能的概念出現(xiàn)得還早。

▲ 沃爾特的機器烏龜@1948

比如在1948年,就有一位發(fā)明家發(fā)明了上圖中的一個像小烏龜一樣的機器。當時這個機器用了光傳感器和模擬電路,能夠靠它的光傳感器發(fā)現(xiàn)障礙物。碰見障礙物時,它可以通過左右移動尋找能夠走的路。另外,在它里面有電路來模擬神經(jīng)系統(tǒng)條件反射,在電快用完的時候,可以回到插座去充電。

這個東西我們都很熟悉,現(xiàn)在很多家庭都有,就是掃地機器人,它發(fā)明時間比人工智能的歷史還長。

那時這樣一個機器的里面當然沒有計算機和芯片,也沒有程序和算法。它只是內部有一個模擬電路,靠行為、靠跟環(huán)境的互動來獲得它的智能。

最近幾年我們經(jīng)??吹揭恍┖莒诺臋C器人,比如波士頓動力做的機器人。它們可以在很復雜的環(huán)境里運動,像上圖的這個機器人就可以做到跳躍到高臺上去。

這種機器人背后的設計思想主要也是行為主義。這些行為不是由人進行編程,制定“先邁左腳,再邁右腳,遇到多高的東西怎么行為”的規(guī)則,再讓機器人去嘗試、去執(zhí)行,是訓練出來的。

既然有訓練,就會有失敗,我們看到的都是成功的例子。為了完成這個動作,它其實已經(jīng)訓練了很長時間,摔斷了無數(shù)次腿。

第三個學派是連接主義。如前所述,實現(xiàn)智能需要有物理載體,這個載體本身是一個客觀的物理存在。按照連接主義的思想,它就應該是神經(jīng)網(wǎng)絡。

因為生物或者人類智能的主要載體就是我們以大腦為中樞的神經(jīng)系統(tǒng),所以我們構造一個機器智能系統(tǒng),也就應該構造一個人工神經(jīng)網(wǎng)絡。這個人工神經(jīng)網(wǎng)絡的構造,長期以來就成為各位發(fā)明家嘗試的對象。

其實在過去這些年,我們對生物的神經(jīng)系統(tǒng)了解還很有限。本來我們應該借鑒生物的神經(jīng)系統(tǒng)來構造人工的神經(jīng)網(wǎng)絡,但在得不到生物神經(jīng)系統(tǒng)藍圖的時候,就只能去創(chuàng)造各種各樣的神經(jīng)網(wǎng)絡。

上圖展示了已經(jīng)發(fā)明的很多種神經(jīng)網(wǎng)絡的神經(jīng)元是如何連接成各種各樣的結構。

構造神經(jīng)網(wǎng)絡是為了產(chǎn)生智能,那么什么樣的神經(jīng)網(wǎng)絡能產(chǎn)生智能?怎么去產(chǎn)生智能?就成了連接主義這個流派要解決的問題。

機器也逃不過適者生存的法則

已完成:30% //////////

在上個世紀八十年代前后,有好幾個研究組都提出了一個類似的思想,我們今天叫它反向傳播算法。

▲ 多層神經(jīng)網(wǎng)絡上的反向傳播算法(1985前后)

大家看,上面這個神經(jīng)網(wǎng)絡其實是一個結構很簡單的網(wǎng)絡。說它簡單是因為它的結構是多層的,每個縱向的一列就是一層神經(jīng)元,兩層之間的神經(jīng)元是全連接,也就是任何一個上層的神經(jīng)元跟下層的所有的神經(jīng)元都是互聯(lián)的。這樣的網(wǎng)絡結構大家都很容易想到,很簡單。

生物的神經(jīng)網(wǎng)絡要比這復雜得多,但還遠遠不清楚,因此現(xiàn)在人類只能按照自己的理解去設計這樣的簡單人工神經(jīng)網(wǎng)絡。上面這個網(wǎng)絡到今天仍然在被大量使用。

這樣的一個簡單結構怎么產(chǎn)生智能呢?這個網(wǎng)絡在開始時,所有的神經(jīng)連接是隨機的。它的左邊是輸入,右邊是輸出。如果現(xiàn)在要它完成人臉識別,你在左邊輸入一幅人臉的圖像,右邊希望它輸出這是張三或李四。像這樣隨便輸入一個圖像讓它輸出人名,在沒有任何教學過程的情況下,它根本無法做到正確輸出。

比如說我們希望T1等于1的時候就是張三,T2等于1的時候就是李四,但是當我們輸入張三的圖像時,幾乎可以肯定T1不等于1。不等于1沒關系,既然我們希望T1等于1,那么它跟1的差別有多大呢?這個差別可以用Δ表示。為了讓T1的值等于1,算法會反向地一層層調節(jié)神經(jīng)網(wǎng)絡,讓前面每一層連接的強度值發(fā)生變化。所以每完成一次訓練就要進行一輪調節(jié),經(jīng)過一遍遍的訓練和調節(jié)后,再讓機器做出識別。

我就做過這種神經(jīng)網(wǎng)絡,再簡單的問題,大概三天三夜能夠訓練出一個像樣的結果就不錯了。

所以它的背后沒有如何識別人臉的規(guī)則,它的功能是一個網(wǎng)絡經(jīng)過很多輪的調整而逐漸地獲取的。

今天神經(jīng)網(wǎng)絡訓練的背后基本也是這樣的思路,我們最后得到的結果實際上就是經(jīng)歷了反復嘗試、優(yōu)勝劣汰后取得的。大自然訓練我們的大腦其實也是這樣的過程,在數(shù)十億年生命發(fā)展過程中,有無數(shù)生命因為試錯而死亡。

▲ 2006年,Geoffrey Hinton在《Science》發(fā)表關于深度神經(jīng)網(wǎng)絡的論文

2006年,著名的科學家杰弗里·辛頓(GeoffreyHinton)提出了一個改進的算法:在前面提及的神經(jīng)網(wǎng)絡上做了一些方法上的改進之后,它能夠起到很好的識別效果。我們稱之為深度學習。

什么是深度學習?深度指的是神經(jīng)網(wǎng)絡的層數(shù)有很多。我剛才舉的例子只有幾層,但今天的神經(jīng)網(wǎng)絡已經(jīng)有幾百層甚至上千層了。學習就是機器學習,即通過一遍一遍的嘗試、不斷地調整參數(shù),最終調到接近人類希望的答案。

所以深度學習就是在多層神經(jīng)網(wǎng)絡上,經(jīng)過一遍一遍的嘗試,最后獲得規(guī)律的過程。

這是個通用的方法,通過這樣的方法可以解決很多問題:如果輸入一張人臉,最后它能識別出是張三、李四,這是人臉識別;如果輸入的是一句話,它最后理解的就是一個一個的字,這就是語音識別。其他不同媒體的數(shù)據(jù)類型都可以通過這種方式尋找數(shù)據(jù)背后的結構。

能夠從復雜的現(xiàn)象背后發(fā)現(xiàn)規(guī)律、發(fā)現(xiàn)結構,這就是智能的基本特征。而深度網(wǎng)絡就能做到這一點:無論是什么類型的數(shù)據(jù),只要它內部存在結構性,深度網(wǎng)絡都可以通過多次嘗試找到結構性。這就是深度學習工作的基本方法。

機器憑什么戰(zhàn)勝人類高手?

已完成:40% //////////

深度學習的一個例子就是AlphaGo。2016年AlphaGo圍棋系統(tǒng)戰(zhàn)勝了李世石,它是怎么做到的呢?在比賽之前還有很多人否認這種可能性,認為計算機不可能戰(zhàn)勝人類。因為他們做這種結論時背后的思想是符號主義的,就是通過給機器制定規(guī)則去搜索圍棋下法。

▲ AlphaGo通過視覺感知獲得“棋感”

計算機比較笨,但是算得快。算得快并不能解決問題,因為圍棋的可能性太多了,多到今天的計算機無論用多少萬年,都無法實現(xiàn)找到所有下法這一復雜的計算需求。

但是人也無法把圍棋的所有下法下一遍然后總結經(jīng)驗。那么在有限的棋局里,人是如何總結規(guī)律的呢?AlphaGo學的其實就是這一點,它把棋盤看成了一個圖像。

棋盤其實不大,只有361個點,每個點只有黑、白和無三種狀態(tài),所以它是個很簡單的圖像,比人臉簡單多了。

機器能看到大量的圖像,因為有些圖像最終導致贏,有些圖像導致輸,這個結果是很清楚的。所以就可以把這些圖像輸給機器,告訴它:“出現(xiàn)這種局面的時候贏的概率大一點兒,出現(xiàn)那種圖像時贏的概率小一點”。盡管這個輸贏的概率只有很細微的差別,但是學多了也能逐漸掌握規(guī)律。

所以AlphaGo下圍棋時,它的神經(jīng)網(wǎng)絡學習就是看圍棋的局面、找其中規(guī)律性的東西,這個過程跟人類從復雜的數(shù)據(jù)、事物里找規(guī)律的道理是一樣的。

AlphaGo學到的棋感跟我們人類學到的棋感是一樣的,機器和生物做的沒有什么區(qū)別。但是重要的是機器的計算能力強大,它可以看更多的棋面、棋局。比如AlphaGo當時總共自我對弈了3000萬盤棋。如果人類以100歲為計,生命長度總共是36500天,3000萬盤相當于每天要下800盤左右的圍棋。

人類無法做到從出生起到100歲每天下800盤棋,但是機器用幾個月就可以做到。它獲得的棋感要比人類獲得的數(shù)據(jù)源豐富得多,所以它找到了很多沒有任何人嘗試過的妙招,它打敗人是一個很顯然的結果。

▲ 2019年1月,DeepMind AlphaStar在與兩位職業(yè)選手的比賽中獲得了全勝,其中一位還是世界前10的頂尖神族選手Mana。

除了下棋,機器還可以做很多事,比如游戲。在星際爭霸這樣的游戲里輸贏也是很清楚的。

盡管整個游戲的場景或者選擇的可能性很多,但總的來說它是一個規(guī)則很清楚的場景,機器同樣可以從角色空間里尋找更占優(yōu)勢的策略,然后不斷地提高自己的能力。用類似的方法,2019年機器就戰(zhàn)勝了人類的頂尖高手。

▲ 2020年6月21日,啟元AI“星際指揮官”以兩個2:0的成績擊敗了《星際爭霸I/II》全國冠軍黃慧明(TooDming)和黃金總決賽三連冠選手李培楠(Time)

這是2020年6月在北京舉行的比賽,中國的兩位星際爭霸的頂級選手和機器對戰(zhàn)。這套系統(tǒng)用的機器的算力消耗只有國外同類系統(tǒng)的十分之一,但是靠算法的改進,它達到了與國外系統(tǒng)相當?shù)乃健D且惶煳以诂F(xiàn)場,它幾乎是沒有懸念就把人類兩個頂級高手給打敗了。

為什么做智能機器要仿腦?

已完成:50% //////////

這么看的話,機器智能似乎發(fā)展得很快,已經(jīng)有點兒勢不可當了,下棋、打星際爭霸甚至更復雜的決策,機器都能做得到。是不是照著這種勢頭下去,機器就能超越人類了呢?是不是隨著大算力、大數(shù)據(jù)等等的發(fā)展,把模型做得越來越大,然后人工智能就是一片光明了呢?其實不是的。

舉一個例子,人臉識別是人工智能最成功的應用,不少公司的產(chǎn)品就是做人臉識別,我們日常生活中也經(jīng)常看到人臉識別。那么今天的人工智能系統(tǒng)是不是已經(jīng)解決了人臉識別問題呢?

人類識別人臉的能力是有限的,平均一個人能夠分辨人臉的類別總共是2000左右。好在我們一生不用認識那么多人,區(qū)別2000人的人臉對我們來說已經(jīng)夠用了。

在人臉識別方面,比如輸入一張照片問,這個人在這個有幾千萬人口的城市的什么地方出現(xiàn)過?機器做得確實比人類強。

但是,看似很強大的人工智能系統(tǒng),在做一些基本任務時跟人類相比還差得很遠。

比如上圖這個穿條紋衣服的人被機器檢測出來了,但在肚皮上貼圖片的這個人,機器就檢測不出是個人。

這位女士的頭上不貼那個圖片的話,很容易檢測識別出她是誰,但是一旦加上這幅圖片,機器根本不知道圖像里存在一個人或者一張人臉。

所以機器看似很強大,但實際上有很大的弱點,它跟人類視覺相比還有很大的差距。

為什么會發(fā)生這種情況呢?其實道理很簡單。因為任何智能都是有載體的,深度學習依賴于人工神經(jīng)網(wǎng)絡,生物的智能依賴于生物的神經(jīng)網(wǎng)絡。

今天的人工神經(jīng)網(wǎng)絡跟生物神經(jīng)網(wǎng)絡相比,還是小巫見大巫。

▲ 人類視覺系統(tǒng)

就像這個圖片顯示的,我們的視覺系統(tǒng)在后腦勺,眼睛的信號通過視神經(jīng)纖維送到后腦勺。這個視覺系統(tǒng)差不多占大腦皮層五分之一的面積,其神經(jīng)網(wǎng)絡的復雜程度遠遠超出今天所有人臉識別系統(tǒng)的人工神經(jīng)網(wǎng)絡。所以生物視覺的物理基礎強大,能力強也沒有什么奇怪的。

如果想做一個能夠媲美人類視覺的視覺系統(tǒng),就得做一個跟人類視覺的神經(jīng)網(wǎng)絡相當?shù)娜斯ど窠?jīng)網(wǎng)絡才有可能做到。

這樣的觀念其實并不新鮮,在人工智能的概念沒出現(xiàn)時人們就討論過了。我舉兩個例子。

▲ 馮·諾伊曼

我們今天講的計算機都叫馮·諾伊曼計算機,是因為馮·諾伊曼定義了計算機的體系結構。

他在提出計算機體系結構的那個年代也提出了一個觀點,他認為生物視覺系統(tǒng)最簡單的完整模型就是視覺系統(tǒng)本身,如果你想簡化,只會讓事情變得更復雜,而不是更簡單。所以要實現(xiàn)某種智能,就必須有實現(xiàn)那種智能相應的機器和對應的結構才可能做到。

▲ 圖靈

圖靈是一位更著名的學者和計算機專家,我們今天的計算機的基本模型就是圖靈提出的。圖靈在1950年發(fā)表了一篇論文,這篇論文也被追認為人工智能的第一篇論文。因為人工智能的概念在1956年出現(xiàn),而這篇論文是1950年發(fā)表的。

在這篇論文中,圖靈給了一個很清楚的判斷,他認為真正的智能機器必須具有學習能力,制造這種機器的方法是先制造一個模擬童年大腦的機器,再教育訓練它。只有用能夠模擬童年大腦的機器訓練,才能產(chǎn)生預期的智能。

為什么要仿腦?為什么必須在腦的基礎上去做?人類也可以嘗試做各種神經(jīng)網(wǎng)絡,然后解決一些現(xiàn)實的問題,但從終極意義上講,最節(jié)省的方法就是把人的大腦作為葫蘆去畫瓢,這個瓢就是機器智能。

為什么要用生物大腦作為“葫蘆”?因為它是經(jīng)過35億年的進化、試錯后試出來的、證明是有效的結構。我們今天只要把這個結構搞清楚,然后用它去做機器智能就行了。

人類大腦在很多方面是很強大的,雖然能耗只有25瓦,但是它能做的事情比我們今天的大型計算機都要強大得多。人腦進化的成本地球已經(jīng)付出過了,所以它是一個成本很低的、現(xiàn)成的可參照物。

先造大腦,再研究智能的奧秘

已完成:60% //////////

這里可能有一個問題。很多專家說:“你說得容易,但做起來很難,大腦背后的機理你知道嗎?”

就像我剛才說的,大腦是人類自然科學最后的疆域,大腦奧秘什么時候能破解?確實不可預測,幾百年、幾千年都不好說。

但是機器智能這四個字可分為“機器”和“智能”。我們做機器智能,第一步是要做機器,第二步是做智能,不是只盯著智能,而首先要做一個可能產(chǎn)生強大智能的機器。首先要關心機器、關心大腦、關心這個產(chǎn)生強大智能的結構,而不要先糾結大腦的思維和智能的機理。它如何產(chǎn)生智能?那是之后的事。

為了不顯得太抽象,我舉個例子。如果認為人類要制造能飛行的機器,就得先把飛行原理搞清楚才能造機器的話,人類到今天都飛不上天。因為人類到今天都沒有弄明白飛行的所有原理。

實際上飛機發(fā)明的歷史發(fā)展過程是這樣的:1903年萊特兄弟發(fā)明了飛機,那時根本沒有任何飛行原理。到了1939年錢學森和馮·卡門才真正建立出了一套飛行理論。在這30多年的時間中間,有兩次世界大戰(zhàn),飛機已經(jīng)發(fā)揮了很大作用。

那在這中間發(fā)生了什么?其實萊特兄弟發(fā)明飛機,只是利用了工業(yè)時代的技術進步,靠動力、靠嘗試讓一個機械裝置飛上天。萊特兄弟和世人都不明白它為什么能飛上天,但它就是發(fā)生了。

有一個叫馮·卡門的人堅決不相信這件事情,他在1908年跟別人打賭說:“人類不可能讓一個龐大的裝置在天上飛,而且人還能待在上面?!敝钡皆诎屠栌H眼看到這個事實之后,他才下決心去研究為什么一個這么重的裝置能飛上天。花了三十幾年的時間,他才找到了飛行的原理,才有了空氣動力學。

1939年后,基于空氣動力學的原理,我們可以把飛機造得更好、更大、更強大,但是第一架飛機不是基于原理制造出來的,而是人類的一個重大的發(fā)明。

這種事件在科學技術歷史上很多。比如中國宋朝時發(fā)明指南針,當時我們不知道電磁學,但這并沒有妨礙指南針的發(fā)明。如果沒有指南針,就沒有大航海,還有沒有我們今天的科技的進展都不好說。

所以大家不要被原理迷惑,認為做一件事必須先把原理搞清楚才能做,這是阻礙創(chuàng)新的一個很大的思想障礙。

智能其實也是一樣的。我們今天不是要回答智能背后的原理是什么,大腦的奧秘是怎樣的。我們要先看是什么樣的結構產(chǎn)生了智能,然后制造這樣的機器去實現(xiàn)智能,再去研究它產(chǎn)生的奧秘。

這是馮·卡門的老師、馮·卡門以及他的學生錢學森的一張珍貴的照片。馮·卡門晚年曾經(jīng)總結過一句話:“科學家發(fā)現(xiàn)現(xiàn)存的世界,工程師創(chuàng)造未來的世界?!?/p>

科學家研究的對象一定是存在的,研究不存在的對象是玄學。工程師創(chuàng)造的東西可以是基于科學原理,但是最偉大的工程師是在沒有原理的情況下把一個東西做出來,這才是0到1的重大發(fā)明。

發(fā)現(xiàn)和發(fā)明同樣重要,有時是發(fā)現(xiàn)指導發(fā)明,有時是先發(fā)明后才有科學發(fā)現(xiàn)。機器智能現(xiàn)在要做的是要發(fā)現(xiàn)生物神經(jīng)系統(tǒng)的結構,不是發(fā)現(xiàn)生物智能的奧秘。

那么,我們要發(fā)現(xiàn)什么樣的生物智能背后的結構呢?

科學研究常用的模式動物就那么幾種。最簡單的是線蟲,線蟲只有302個神經(jīng)元,它靠300多個神經(jīng)元就足以生存、繁衍、感知、運動。

比線蟲復雜一點的生物,也是現(xiàn)在常用的斑馬魚。斑馬魚出生時只有數(shù)萬個神經(jīng)元,隨著成長,它的神經(jīng)元不斷增加,可以增加到百萬級別。斑馬魚是透明的,所以可以用光電儀器仔細地觀察這些神經(jīng)元的行為。

更復雜一點的就是果蠅,然后就是哺乳動物小鼠。比小鼠更復雜一點的是狨猴,這是靈長類里大腦最小的動物,它的大腦大概有10億個神經(jīng)元。最復雜的生物就是人類,人類的大腦大概有800多億個神經(jīng)元,差不多是千億規(guī)模的。

不同的生物神經(jīng)網(wǎng)絡復雜程度不同,造就了各種各樣的智能行為。

什么時候我們能夠把生物的大腦解析清楚,作為制造機器智能的藍圖呢?對此,人們有不同的看法。

我想引用2016年4月全球腦計劃研討會提出的看法,它當時說:10年內希望能夠完成包括但不限于以下動物的大腦的解析:果蠅、斑馬魚、鼠和狨猴。也就是未來10年左右對生物大腦的解析要進入靈長類。

那什么時候能到人類呢?20年?30年?現(xiàn)在很難給出一個答案。

但是總的來說,這需要的只不過是我們用最先進的技術對一個復雜對象進行解析。不存在能不能的問題,只有技術手段夠不夠的問題。雖然準確的時間不好說,但是大概在幾十年之內,這件事情是可以辦得到的。

就像人類基因組一開始測基因的成本很高,但今天我們測人類基因的成本可能幾百塊錢就足夠了。技術進步會帶來對大腦結構解析的巨大進步。

走向通用人工智能

已完成:70% //////////

既然生物這邊能夠把生物神經(jīng)系統(tǒng)的構造解析出來,那做信息和人工智能的人面臨的問題就是,你能不能照葫蘆畫瓢,把這個電子大腦構造出來,也就是制造智能的機器。

在這方面其實全世界進展得很快。我國2019年已經(jīng)在北京懷柔開建一個國家重大科技設施“多模態(tài)跨尺度生物醫(yī)學成像設施”。這個設施的主要目標就是解析大腦的神經(jīng)網(wǎng)絡結構。

貴州的FAST天文望遠鏡看的是我們的大宇宙,而這套系統(tǒng)要看的則是我們生物的小宇宙。

即便不是人的大腦,如果能把果蠅大腦中這幾十萬個神經(jīng)元做出來,其實也很有用。今天的無人機看著很強大,但跟果蠅對比的話還差得遠。如果能構造出一個果蠅的大腦,相應電子裝置其實就已經(jīng)可以滿足很多實際的問題。

關于無人駕駛,有的人說幾年就能成功了,有的人說可能幾十年都成功不了,這里最主要的問題就是駕駛腦到底能不能靈敏地感知環(huán)境。

如果能夠把生物的大腦做出來,不說別的,一只小鼠在復雜空間的感知能力都比今天的無人車要強大得多。如果能做出一個鼠腦,就足以完成無人駕駛的功能了。

所以如果能把這些腦高精度地模擬出來,然后把上面的智能訓練出來,就能夠解決人工智能的很多問題。而這些問題的一步步解決,將帶來走向通用人工智能的歷史性的進步。

今天所有的人工智能都是弱人工智能。弱人工智能也叫窄人工智能或者專用人工智能,這個智能系統(tǒng)只能完成一件事。能夠做任何事的智能系統(tǒng)叫通用人工智能系統(tǒng),也叫強人工智能系統(tǒng)。

人類當然是強人工智能系統(tǒng),我們不是只會一件事,只要學習,我們可以學會各種解決問題的辦法。

我們未來的目標就是要做出通用人工智能系統(tǒng)。這個系統(tǒng)什么時候能做出來,也是個很有爭議的話題,不同人的看法可以說是天壤之別。

2015年1月時,有一個關于人工智能安全的會議叫AI Safety。會議現(xiàn)場對于與會專家進行了一個現(xiàn)場調查,讓他們預測什么時候能出現(xiàn)通用人工智能或者強人工智能。

把他們的答案排一個序,有人說10年、20年、30年、50年,有人說永遠做不到。預測的中點時間是2045年,也就是在2015年的30年后,這種智能就會做出來。

我沒有參加那次會議,但是我的判斷也是類似的。

我在那次會議之前發(fā)表了一篇名為《人類能制造出超級大腦嗎?》的文章。其實文章原名叫《制造超級大腦》,編輯怕說得太絕對,就用了一個疑問句。文章內容講的就是我們如何構造一個電子大腦,讓它產(chǎn)生強人工智能。我自己做科研時也在做這方面的工作。

比人眼快1000倍的電子眼

已完成:80% //////////

剛才說復制一個大腦還需要幾十年的時間,那么我們在幾年之內能做什么?我們幾年之內只能做大腦的一部分,具體來說做的是眼睛,就是視覺部分。

我們的眼球里有一個復雜的神經(jīng)網(wǎng)絡,眼球里的感受神經(jīng)元數(shù)量超過一億個,其中有大概600萬個負責精細視覺,就是大家盯著某件事物看時用到的那部分神經(jīng)元,它叫黃斑區(qū)或者中央凹。我們模擬的就是這個區(qū)域。

要模擬這個區(qū)域就得搞清楚它是怎么回事,所以就要對其中的每一種神經(jīng)元進行精細的結構和功能的解析,然后在計算機上模型化,把它重現(xiàn)出來。上圖就是其中的一個神經(jīng)節(jié)細胞的結構以及它接受信號刺激時發(fā)放神經(jīng)脈沖的過程。

我的課題組就是這樣一個一個解析、模型化、重現(xiàn)神經(jīng)元,經(jīng)常一個博士生幾年就做一個神經(jīng)元。

人類的眼睛里大致有六七十種神經(jīng)元,我們做了其中的10種左右中央凹這個區(qū)域的神經(jīng)元。把這些神經(jīng)元按照生物的結構連接在一起,讓它感受光刺激,我們可以看到一層層神經(jīng)元傳遞的過程。

上圖是給神經(jīng)元一個圖像刺激之后,它們發(fā)黃光,也就是發(fā)放神經(jīng)脈沖,然后相互作用,來表示視覺刺激的的過程。

除了要想搞清楚生物的神經(jīng)系統(tǒng)的細節(jié)之外,還得搞出一個電子系統(tǒng)來重現(xiàn)生物的功能,所以我們就設計了一顆芯片。

這個芯片做了很多簡化,實際上上面那個把生物的細節(jié)都做到的動畫背后的所有計算是在天河二號上完成的,我們做的芯片只仿真了其中的一個核心功能。

這樣的芯片做出來后,我們就可以嘗試看看這只電子眼能夠看見什么。其實它實現(xiàn)的功能不比人眼復雜,只不過是人眼功能的一個子集,但有一點兒不同,它是個電子系統(tǒng)。

生物的神經(jīng)系統(tǒng)很復雜,但是生物是一個慢速系統(tǒng)。生物的任何兩個神經(jīng)元之間每秒鐘能夠傳送的神經(jīng)脈沖的數(shù)量通常只有幾個到幾十個,不可能超過100個,但是我們構造的電子神經(jīng)元之間傳送信號就可以快得多。

我們的第一版芯片就做到每秒4萬個脈沖,假定生物平均是40個,這兩者就差了1000倍。這1000倍的速度差別帶來的就是這只電子眼睛可以看到高速運動過程。

比如一個電扇轉起來之后,人眼是看不到電扇上的細節(jié)的。如果在電扇的扇葉上貼上幾個字母,電扇不轉的時候你能看得清清楚楚,電扇一轉你就看不清楚了。

為什么?因為生物的眼睛是一個慢速系統(tǒng),每秒鐘每一個神經(jīng)元只能給大腦送幾個脈沖,所以當然看不出電扇每秒鐘轉幾十轉的高速過程。

電子眼比人眼快1000倍,對它來說所謂的高速只是一個很緩慢的運行過程,所以這只電子眼可以看清楚電扇轉起來時的所有細節(jié)。

▲ 仿眼高速相機和識別系統(tǒng)

為了證明電子眼能看見,我們買了一個激光器做了一個裝置,就是上圖的這個方形結構。這個激光器能做什么呢?

▲ 仿眼高速相機和識別系統(tǒng)

這是慢放1000倍的場景,真正的信號實時地放,沒有任何人能看清楚。

在電扇轉起來之后,我們的算法就在一個計算機上執(zhí)行了。你可以選任何字母,上面的PKU是北京大學的縮寫。如果你希望激光擊中其中的某一個字母,比如說“K”,你按下K鍵之后,激光就會直接在粘貼“K”的扇葉上打一串激光點,這就證明電子眼是可以實時看到的。

這個系統(tǒng)的成本其實很低,是我們自己設計的相機和筆記本電腦組成的。將來筆記本電腦會變成一個芯片,變成一個可以做到超高速的小裝置系統(tǒng),這就是仿生物帶來的好處。

如果在傳統(tǒng)計算機上加一個攝像機的話,沒有一個龐大機柜是做不了這種高速過程的。

人機大戰(zhàn)的現(xiàn)象可能發(fā)生嗎?

已完成:90% //////////

我們往往把機器、機器人想象得像人類一樣,這是一個錯誤觀念。比如很多好萊塢電影里經(jīng)常出現(xiàn)機器人跟人類英雄互相打斗的場景,這是太高看人類了。

機器的眼睛比人類快1000倍,甚至是1萬倍也可能,它的機械動作也比人高很多倍,機器跟人類互相對戰(zhàn)的現(xiàn)象不會發(fā)生。

你給機器一個子彈,它順手就可以抓住,它沒必要跟你對著槍互相打。你的槍還沒舉起來的時候,機器人光靠巴掌就可以把你拍在地上。所以這是人類把自己的功能和性能都投射到機器上了,實際上不是這樣的。隨著機器的發(fā)展,它的性能將遠超我們。

特斯拉在1896年講過一句話,他說:“我認為任何一種對人類心靈的沖擊,都比不過一個發(fā)明家親眼見證人造大腦變?yōu)楝F(xiàn)實?!?/p>

如果以人工、電子、光電的方式實現(xiàn)大腦的話,這個世界會發(fā)生翻天覆地的變化。未來人類如何跟這種越來越強大的智能共存,是一個挑戰(zhàn)性特別大的問題。

一方面,這種超級智能的神經(jīng)網(wǎng)絡繼承了人類大腦的結構,所以它跟我們是有相融性的。盡管它的思維比我們快很多,但它不過是一個電子的大腦。比起外星人,我們與超級智能至少存在交流的可能性。我們制造的強大機器在某種意義上還是我們的后裔,是人類的子孫。

另一方面,超級智能的速度又比我們快很多倍,我們完全跟不上。

馬斯克做腦機接口,認為“人類趕不上機器了,那直接把生物神經(jīng)系統(tǒng)跟機器連在一起共同提高不行嗎?”這聽著好像是一個很好的想法,但是這就像汽車與馬車的關系:汽車的速度比馬車快十倍,但是汽車不可能拉著馬車一起跑。它們根本不同步,無法共同工作。

所以一旦這種超越人類的機器出現(xiàn)的話,我們面臨的挑戰(zhàn)是很大的,我們一定要思考怎么共存和發(fā)展。

當然,有很多人也在思考這個問題。2015年AI Safety會議上曾經(jīng)預測過2045年會出現(xiàn)這樣的機器,2019年時又舉行了一次名叫Beneficial AGI的會議,也就是“向善的通用人工智能”。會議的主題是希望這種智能出現(xiàn)之后,它能夠跟人類和平共處,我也去參加了這次會議。

2020年,這個會的參加者之一羅素教授給了我一本他馬上要正式出版的書《AI新生》的預印本,這本書里面就提出了一種人類如何跟性能上遠遠超越人類的機器共存的方法。

這只是他提的一種方法,這個問題是人類真正應該思考的開放問題。也許在未來幾十年內,對人類來說這會是個最大的挑戰(zhàn),希望大家能夠關注、思考。

謝謝!

- END -

文章和演講僅代表作者觀點,不代表格致論道講壇立場。

原稱“SELF格致論道”,是中國科學院全力推出的科學文化講壇,由中國科學院計算機網(wǎng)絡信息中心和中國科學院科學傳播局聯(lián)合主辦,中國科普博覽承辦。致力于非凡思想的跨界傳播,旨在以“格物致知”的精神探討科技、教育、生活、未來的發(fā)展。歡迎關注格致論道官網(wǎng):self.org.cn,微信公眾號:SELFtalks,微博:格致論道講壇。

評論
秋天的果子陳
少師級
有了這個定義,我們就很容易區(qū)分生物智能和機器智能這兩種智能。從功能或者現(xiàn)象的層次來說,它們可以是相似的,也可以完全不同。致敬,北京智源人工智能研究院長黃鐵軍。
2025-02-18
秋天的果子陳
少師級
我給智能的定義是這樣的:智能是系統(tǒng)通過獲取和加工信息,而獲得的一種能力,從而讓系統(tǒng)實現(xiàn)從簡單到復雜的演化。致敬,北京智源人工智能研究院長黃鐵軍。
2025-02-18
秋天的果子陳
少師級
比起“人工智能”,我更喜歡用“機器智能”這個詞。因為人工智能總讓人想到是人類在設計智能,但事實并非如此。機器作為智能的載體,它本身會不斷的發(fā)展、進化。它在發(fā)展時,會帶動智能不斷發(fā)展。致敬,北京智源人工智能研究院長黃鐵軍。
2025-02-18