背景
9月11日,習(xí)近平總書記在京主持召開科學(xué)家座談會并發(fā)表重要講話,提出“希望廣大科學(xué)家和科技工作者肩負(fù)起歷史責(zé)任,堅持面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,不斷向科學(xué)技術(shù)廣度和深度進(jìn)軍?!?/p>
為了幫助青年科學(xué)家與青年企業(yè)家加強溝通、凝聚共識以應(yīng)對挑戰(zhàn),9月25日,2020年中國科技峰會系列活動的青年科學(xué)家沙龍推出最新一期—“AI學(xué)術(shù)生態(tài)與產(chǎn)業(yè)創(chuàng)新”。
活動伊始,清華大學(xué)計算機系長聘教授、計算機系副主任、清華-工程院知識智能聯(lián)合實驗室主任唐杰教授以“認(rèn)知推理:AI的下一個浪潮”為題做了主題報告,詳細(xì)介紹了AI的發(fā)展歷史、認(rèn)知智能的現(xiàn)狀及發(fā)展方向、第三代AI、意識AI等重磅前沿領(lǐng)域的發(fā)展,本文是AI Time對報告主要內(nèi)容的簡單整理,如果想要觀看完整的視頻報告,請在B站關(guān)注“AI Time論道”,我們已經(jīng)將活動視頻上傳。
什么是認(rèn)知智能
為了幫助大家理解什么是認(rèn)知智能、認(rèn)知圖譜,首先用一個例子進(jìn)行了說明。
假如我們要解決一個問題“哪個導(dǎo)演于2003年在洛杉磯的Quality咖啡館拍過電影(Who is the director of the 2003 film which has scenes in it filmed at The Quality Cafe in Los Angeles)”,人類可能是先搜索相關(guān)的文檔(如Quality咖啡館、洛杉磯的相關(guān)文檔等),從中找到相關(guān)的電影(如Old School),在電影的介紹文檔里面進(jìn)一步找到該電影的導(dǎo)演Todd Phillips,經(jīng)過比對電影的拍攝時間(2003年),最終確定答案是Todd Phillips,具體流程如下圖所示。
大家可以看到,人類的大腦在思考問題、追尋答案的過程中其實有幾個過程:(1)根據(jù)問題解讀其中的關(guān)鍵信息;(2)做出判斷。如果是答案正確,整個推理引擎會輸出最終的答案;如果答案不正確,整個過程會繼續(xù)。這就是一個經(jīng)典的帶推理的過程。
對于這類問題,機器該怎么做?傳統(tǒng)的方法是會用BERT或者XLNet這樣的相關(guān)模型做預(yù)訓(xùn)練,訓(xùn)練完成以后,我們會簡化復(fù)雜的問題。這樣的話,我們給定一個問題以后就可以直接在長文檔中進(jìn)行匹配,然后找到最終答案并進(jìn)行輸出。
但是,這樣的過程其實缺乏可解釋性,我們把整個回答問題的過程中變成了一個黑盒子,人很難理解整個過程中輸出的一些結(jié)果。
對此,最近也有很多相關(guān)的文章試圖把知識概念融入到類似BERT或者XLNet這樣的預(yù)訓(xùn)練模型中,或者將知識圖譜或者知識概念(包括邏輯推理)的一些信息融入到這些識別中。
總體來說,我們可以用圖靈獎獲得者Yoshua Bengio于2019年在NeurIPS大會中的主旨報告來總結(jié):所有的這些模型都屬于人腦認(rèn)知中的System 1,也就是系統(tǒng)一的感知過程。
在人腦的認(rèn)知過程中,包括系統(tǒng)一和系統(tǒng)二,系統(tǒng)一更多的是做一個快速的、直覺的、無意識的匹配,給定一個問題時,系統(tǒng)一直接匹配相關(guān)的一些答案,并且把這個答案直接輸出出來。這些答案的匹配缺乏推理過程,而且直接用習(xí)慣性的結(jié)果進(jìn)行匹配,目前的深度學(xué)習(xí)做的更多的是這種匹配。
但是,其實人腦認(rèn)知還有一個叫System 2的過程。System 2相對比較慢,沒有System 1的快速的匹配過程,但它里面帶有更多的邏輯推理和序列推理的過程,我們把它叫作一個有意識的帶規(guī)劃、帶認(rèn)知的一個過程。這也是Bengio提倡的:希望深度學(xué)習(xí)模型在未來更多地朝著認(rèn)知、推理來做。
認(rèn)知圖譜的理論基礎(chǔ)
有了此背景,我們重新思考一下剛才的推理過程。假如我們用System 2(認(rèn)知過程)來做,這個過程應(yīng)該怎么做呢?
我們可以把這個問題跟人的認(rèn)知過程進(jìn)行匹配。前面提到了人類認(rèn)知的雙通道過程,與之對應(yīng)的,認(rèn)知科學(xué)中還存在雙通道理論,即人有兩個系統(tǒng):System 1、System 2?;诖酥R,我們在求解過程中用System 1模擬知識擴展過程,即找到關(guān)鍵信息,并對關(guān)鍵信息進(jìn)行直覺擴展;然后把System 2變成一個決策過程,即判斷信息是不是我們需要的。具體如下圖所示。
下面我們解釋一下怎么用System 1和System 2來求解問題。我們把這個工具叫作認(rèn)知圖譜(Cognitive Graph)。
對于剛才的問題,認(rèn)知圖譜更加像一個迭代的過程,它里面有兩個系統(tǒng):一個系統(tǒng)對應(yīng)System 1,它會抽出里面幾個關(guān)鍵詞,從外部資源中找到相關(guān)的信息,再從里面抽取出重要的信息;另一個系統(tǒng)對應(yīng)System 2,它會判斷抽取的信息是否有用,或者本身就是最終的答案。如果不是答案,但有用,System 2就會把這些相關(guān)的信息放到System 1中,而System 1會繼續(xù)做這種擴展,System 2會繼續(xù)做判斷,最終輸出我們要的答案,結(jié)束整個推理過程就,如下圖所示。
對System 1,可以用原來已有的機器學(xué)習(xí)的模型,如BERT、XLNet、GPT-3等,先做一個預(yù)訓(xùn)練,然后在預(yù)訓(xùn)練模型的基礎(chǔ)上做一個匹配,最后直接從匹配的結(jié)果來做這樣的知識的擴展。
有了System 1以后,可以參考人類的推理過程做System 2。人在拿到相關(guān)的信息以后會把這些信息建造成一個知識網(wǎng)絡(luò),然后在知識網(wǎng)絡(luò)的基礎(chǔ)上做決策,發(fā)現(xiàn)最終要的答案。在這樣的思路上,我們可以用圖神經(jīng)網(wǎng)絡(luò)對所有的信息進(jìn)行建模,然后決策、判斷得到的信息是不是我們所要的。
用認(rèn)知圖譜解決問題的具體過程
對于System 1,我們就直接用BERT來實現(xiàn),如下圖所示。
對于System 2,我們直接用圖神經(jīng)網(wǎng)絡(luò)把System 1輸出的最相關(guān)的信息構(gòu)造成一個網(wǎng)絡(luò),然后基于每個NTT的上下文信息來做決策,如下圖所示。
為了驗證效果,我們參加了HotpotQA這個多跳、帶推理的競賽。大概在2019年2月份到5月份,我們通過把 BERT和圖神經(jīng)網(wǎng)絡(luò)結(jié)合起來構(gòu)造一個雙通道的認(rèn)知過程,最終效果相比于使用BERT的系統(tǒng)提高了50%,如下圖所示。我們開放了相關(guān)代碼,感興趣的讀者可以嘗試。
更有意思的是我們發(fā)現(xiàn)這個模型的推理能力很強,它可以在多跳的方面取得相對于傳統(tǒng)方法更大的優(yōu)勢,如果用傳統(tǒng)的方法且跳數(shù)(特別是推理的跳數(shù))特別少時,傳統(tǒng)的方法跟我們的方法相差不是特別大,但是如果推理過程、跳數(shù)很多時,我們的方法相對于傳統(tǒng)的方法的優(yōu)勢就非常加明顯。
此外,還有一個很重要的效果:這個方法對于傳統(tǒng)的方法可以有很強的可解釋性。如針對下面的問題,整個模型可以輸出一個推理的數(shù)出來,這個推理數(shù)既可能包含這個事實,也可能包含在推理過程中可能得到的一些不正確的答案,比如說這里包含120。所以大家可以看到在這個過程中系統(tǒng)帶有很強的可解釋性,我們把它叫做推理鏈的過程。這時候這個用戶可以把推理過程中正確答案、可能錯誤的答案(次優(yōu)答案)進(jìn)行對比。因為人在認(rèn)知的過程中并不是每一次決策一定要選最優(yōu)的,所以整個推理過程對整個人的認(rèn)知和后續(xù)的作用是非常有用的。
當(dāng)然,推理過程其實還可以有效的幫助后續(xù)的預(yù)測,比如說假如我們沒有做任何推理,而是直接用第一個信息來做推理的話,可能很難判斷。但是通過一層推理拿了更多信息以后,我們可以構(gòu)造出一個圖神經(jīng)網(wǎng)絡(luò),這時候我們就有可能很精準(zhǔn)地判斷出最重要的答案。所以,可以看到圖神經(jīng)網(wǎng)絡(luò)還可以給出更多的信息,使得我們在推理的過程中有了更多的信息,從而提高了推理的精度,這是另外一方面的優(yōu)勢。
還有一個優(yōu)勢就是在推理過程中加上這個模型以后,我們可以做反饋、做錯誤糾正。比如說這個問題其實是真實的一個例子,我們在這個過程中發(fā)現(xiàn)推理出來的結(jié)果其實是不對的,這個時候可以通過這個模型給出一個可解釋性的推理路徑。最后,大家可以看到在整個推理路徑中看到哪些因素導(dǎo)致推理錯誤,哪些是最終使得我們推理得到目前結(jié)果的關(guān)鍵信息,這個時候用戶可以通過這樣的一個推理路徑來識別和判斷產(chǎn)生推理錯誤的原因。
關(guān)于認(rèn)知圖譜的小結(jié)
總結(jié)來看,整個模型有幾個很重要的信息:
1、它其實是一個迭代的框架,它里面包含兩個過程,一個是叫作System 1的信息擴展或者信息匹配的過程,另一個是叫作System 2的帶決策和推理的過程。
2、它最大的優(yōu)勢是可以從外面不斷的獲取新的信息,有很強的可解釋性。
3、它利用了雙通道理論中的System 2的推理過程,從感知過程推進(jìn)到了認(rèn)知過程。
這樣的過程是不是只能在QA這個問題上用?答案是否定的。因為人的認(rèn)知推理并不是簡單的只是在QA上體現(xiàn),所以這個模型是通用的,我們也在其他很多應(yīng)用上進(jìn)行了嘗試,比如說知識圖譜的擴展。
這個是不是只能做問答?也不是。它既可以做問答,也可以做知識圖譜的補齊,下圖左邊是一個知識圖譜,右邊是基于剛才的模型來做知識圖譜的一個補齊,這是一個基本的一個思路。整個認(rèn)知圖譜破有很多相關(guān)的一些應(yīng)用,在我們后續(xù)中可以大量的進(jìn)行使用。
AI的下個十年
我們非常有信心認(rèn)為認(rèn)知圖譜就是AI下個十年非常重要的過程。如果追溯AI的發(fā)展歷史,會發(fā)現(xiàn)AI的發(fā)展包括計算機的整個發(fā)展歷程,從早期的以存儲和計算為主發(fā)展到了當(dāng)下以感知為主。比如,如果給定一個文本,我們可以快速知道文本中相關(guān)內(nèi)容到底有什么樣的語義信息等,但是,目前的感知都缺少認(rèn)知。
認(rèn)知的第一個要素是能夠組織和生成知識,這是非常重要的一個內(nèi)容。但是目前的認(rèn)知智能還缺少推理過程,有些同學(xué)也許會講GPT-3目前其實已經(jīng)體現(xiàn)了一定的推理過程,但其實它離人的推理過程還差得很遠(yuǎn)。因此,AI發(fā)展的下一步的關(guān)鍵也就是認(rèn)知,怎么把AI從感知推進(jìn)到認(rèn)知是目前一個非常重要的發(fā)展趨勢。
如果我們再回顧一下整個機器學(xué)習(xí)的發(fā)展歷程,會梳理出下圖所示的內(nèi)容。
從機器學(xué)習(xí)發(fā)展歷程的幾個重要的里程碑來看,可以看到基于BERT的預(yù)訓(xùn)練模型,其實把機器學(xué)習(xí)從傳統(tǒng)的有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)這樣的模型推到了一個新的高度,也就是通過在大規(guī)模數(shù)據(jù)、大算力的基礎(chǔ)上預(yù)訓(xùn)練完了以后,可以把它微調(diào)到很多子任務(wù)上,在子任務(wù)上可以不再進(jìn)行大規(guī)模訓(xùn)練就得到很好的效果。這是一個非常重要的一個進(jìn)展。
最近在圖形上還有一些自監(jiān)督學(xué)習(xí),比如何愷明等人在2019年提出的MoCo,這時候自監(jiān)督模型的分類結(jié)果可能比有監(jiān)督學(xué)習(xí)的結(jié)果還要好。
我們在這個idea的基礎(chǔ)上做了圖形化數(shù)據(jù)的直接學(xué)習(xí),這是我們今年做的一個工作。我們給定一個圖、一個網(wǎng)絡(luò)以后,可以在網(wǎng)絡(luò)的基礎(chǔ)上自動找到網(wǎng)絡(luò)的正例,比如說對于當(dāng)前節(jié)點可以通過一個隨機游走找到一個子圖,我們把它叫作查詢子圖,同時在這個節(jié)點上再做一次隨機游走,這時候肯定會找到另外一個不相關(guān)、不完全一樣、但是跟剛才的子圖非常相似的子圖,我們把兩個字圖匹配形成的度叫作正力度。同時,我們在網(wǎng)絡(luò)中隨機找到另外一個節(jié)點,然后從這個節(jié)點上隨機做一個子圖的隨機游走,這時候形成了另外一個子圖和查詢子圖,形成匹配,我們就這個叫做負(fù)力。通過正力、負(fù)力,我們就可以做一個對比學(xué)習(xí)。最終我們通過這樣的方法就可以構(gòu)造一個圖形化數(shù)據(jù)的自監(jiān)督學(xué)習(xí)模式,這樣的模型就可以大大增強認(rèn)知推理過程中System 1快速匹配的過程。
當(dāng)然,在剛才講的認(rèn)知推理過程中,System 2的認(rèn)知推理過程還有所欠缺。用圖神經(jīng)網(wǎng)絡(luò)來實現(xiàn)整個過程還是缺少推理過程,它更多地表現(xiàn)出的是決策過程,這是下一步研究應(yīng)該重點關(guān)注的東西。
第三代AI
如果回顧一下AI的幾個階段,會發(fā)現(xiàn):
第一代的符號AI在當(dāng)時構(gòu)造了符號模型、規(guī)則模型和感知機。
第二代AI更多的是做感知智能,通過在大數(shù)據(jù)上做統(tǒng)計學(xué)習(xí)。目前我們初步實現(xiàn)了這種感知智能和識別,這都是System 1做的事情。
在此背景下,張鈸院士在2016年提出了第三代AI的雛形,當(dāng)時的思想把數(shù)據(jù)和知識推理兩個融合起來,與人腦認(rèn)知融合起來,來做下一代的AI。目前急缺的是高質(zhì)量的超大規(guī)模的知識圖譜(其實也是一個AI的基礎(chǔ)設(shè)施),以及面向已經(jīng)面向知識的一個理解能力(面向認(rèn)知的深度學(xué)習(xí)算法)。
那么,AI未來更多地要做什么呢?在國際上,Yoshua Bengio及DeepMind等在推動怎么把認(rèn)知的過程跟深度學(xué)習(xí)結(jié)合起來做下一代的AI。一個很簡單的思路是把原來的符號系統(tǒng)跟深度學(xué)習(xí)結(jié)合起來,這是超越深度學(xué)習(xí)的一個最簡單的思路。這個空間非常大,它里面要研究的東西也非常多,我們也需要在里面做更深層次的一些相關(guān)的研究。
下一個十年AI最重要的一個方向就是做認(rèn)知推理,它是實現(xiàn)大數(shù)據(jù)到知識、到智能的一個關(guān)鍵,這也是實現(xiàn)之前知識工程兩個最有代表性的圖靈獎獲得者推崇的從知識到智能的一個關(guān)鍵的轉(zhuǎn)變。
而30年以后的挑戰(zhàn),應(yīng)該是讓計算機具有自我意識,我們稱其為意識AI。這里面推崇的核心內(nèi)容是把認(rèn)知推理跟人的記憶模型、計算機的自我意識聯(lián)合起來,他其實聯(lián)合了認(rèn)知心理學(xué)中的全局工作理論(GWT),我把他的整個思想做了一個解讀,具體如下圖所示。
這其實相當(dāng)于用計算機模擬了人的全局工作理論的過程。這個方面其實還在進(jìn)行很多相關(guān)的一些研究,還沒有真正輸出一個很有意思的最終的結(jié)果。這個方面大家如果有興趣,也可以加入這方面的研究,來一起做相關(guān)的一些探索。
最后,我們最近也有一些相關(guān)的Paper,大家當(dāng)然如果有興趣的話,也可以看看。
本次活動由中國科學(xué)技術(shù)協(xié)會主辦,清華大學(xué)計算機系、AI TIME、智譜·AI承辦,并得到了清華-中國工程院知識智能聯(lián)合研究中心、清華大學(xué)AI研究院、北京市智源AI研究院、阿里巴巴、微眾銀行、學(xué)術(shù)頭條、學(xué)堂在線等組織的大力支持。