版權歸原作者所有,如有侵權,請聯系我們

Nature:連諾獎都拿了的AI,能像人類一樣擁有常識嗎?

學術頭條
一起見證人類探索征途上的每一個重大突破。
收藏

【編者按】今年的諾貝爾獎陸續(xù)揭曉,人工智能(AI)行業(yè)可謂實現了令人意外的“大豐收”。

然而,盡管人工智能模型變得“越來越聰明”,但在面對一些人類日常生活中“顯而易見”的常識時,卻非常容易出錯。

也就是說,目前的人工智能模型缺乏人類輕易就可以表現出的常識能力。所謂的常識能力,是人類所具有的包含了事實知識和推理的一種能力,不僅只是記憶知識,更包括在不確定情境中進行推理和決策的能力。

那么,人工智能(AI)能否像人一樣擁有常識呢?計算機科學家又應該如何讓人工智能具備人類般的常識?

近日,南加州大學信息科學研究所首席科學家 Mayank Kejriwal 等人在權威科學期刊 Nature 上發(fā)文:“Can AI have common sense? Finding out will be key to achieving machine intelligence”,討論了人工智能(尤其是 LLMs)在展示常識方面的挑戰(zhàn),并提出了改進評估方法和未來研究方向的建議。

圖片
Kejriwal 等人指出,展示常識能力是機器智能發(fā)展中的重要里程碑。他們還提到,現有常識測試主要依賴多項選擇題,難以全面評估 LLMs 的常識推理能力,建議通過要求 LLMs 解釋其答案和進行多步推理來提高評估的準確性,此外還可以嘗試開發(fā)更具挑戰(zhàn)性的開放式測試。

最后,他們呼吁通過跨學科合作設計全面的理論基準,不斷探索具備具身常識的人工智能系統(tǒng),最終讓人工智能在現實世界中表現出更可靠的常識性推理。
學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:

自從不到兩年前公開發(fā)布以來,ChatGPT 等 LLMs 已經在機器智能領域取得了令人興奮和具有挑戰(zhàn)性的進展。一些研究人員和評論家推測,這些工具可能代表著機器向展示“通用人工智能(AGI)”——與人類智能相關的一系列能力——邁出了決定性的一步,從而實現了人工智能研究領域長達 70 年的追求。

這條道路上的一個里程碑就是展示機器常識。對人類來說,常識是關于人和日常生活的“顯而易見的東西”。人類從經驗中知道玻璃制品易碎,或者在素食者朋友來訪時提供肉食可能是不禮貌的。如果一個人犯了大多數人通常不會犯的錯誤,他就會被說成缺乏常識。在這一點上,當前的 LLMs 往往做得不夠。

LLMs 通常在需要記憶的考試中表現出色。例如,ChatGPT 背后的 GPT-4 模型據說可以通過美國醫(yī)生和律師的執(zhí)照考試。然而,它和類似的模型很容易被簡單的謎題難倒。

如今,類似這樣的多項選擇題被廣泛用于測量機器的常識,與美國大學入學考試 SAT 如出一轍。然而,這類問題幾乎不能反映真實世界,包括人類對熱量或重力等物理定律的直觀理解,以及社會交往的背景。因此,量化 LLMs 與人類行為的接近程度仍是一個懸而未決的問題。

人類擅長處理不確定和模糊的情況。通常,人們會選擇令人滿意的答案,而不是花費大量的認知能力去發(fā)現最佳解決方案——例如,在超市貨架上買一包足夠好的麥片,而不是分析每一個選項。人類可以在直覺推理和深思熟慮推理模式之間巧妙轉換,在出現不可能的情況時進行處理,并制定計劃或策略——例如,人們在遇到交通擁堵時會從熟悉的路線轉向其他路線。

機器是否也會有類似的認知能力?研究人員又將如何確切地知道人工智能系統(tǒng)是否正走在獲得這種能力的道路上?

要回答這些問題,計算機科學家就必須與發(fā)展心理學和心靈哲學等學科進行合作。此外,還需要對認知的基本原理有更深入的了解,才能設計出更好的指標來評估 LLMs 的性能。目前,還不清楚人工智能模型是否擅長在某些任務中模仿人類,也不清楚基準衡量標準本身是否有問題。在此,我們將介紹在測量機器常識方面取得的進展,并提出未來的發(fā)展方向。

穩(wěn)步前進

關于機器常識的研究可以追溯到 1956 年在新罕布什爾州達特茅斯舉行的一次頗具影響力的研討會,當時頂尖的人工智能研究人員齊聚一堂?;谶壿嫷姆柨蚣堋褂米帜富蜻壿嬤\算符來描述對象和概念之間的關系——隨后被開發(fā)出來,用于構建有關時間、事件和物理世界的常識性知識。例如,一系列“如果發(fā)生這種情況,那么接下來就會發(fā)生這種情況”的語句可以手動編程到機器中,然后用來教它們一個常識性事實:沒有支撐的物體在重力下會倒下。

這些研究確立了機器常識的愿景,即構建能夠像人類一樣有效地從經驗中學習的計算機程序。從更專業(yè)的角度講,其目標是制造出一臺機器,在給定一系列規(guī)則的情況下,“自動推斷出它被告知的任何事情和它已經知道的事情的足夠廣泛的直接后果”。

因此,機器常識不僅包括高效學習,還包括自我反思和抽象等能力。就其核心而言,常識既需要事實知識,也需要利用這些知識進行推理的能力。僅僅記住一大堆事實是不夠的。從現有信息中推導出新信息同樣重要,這樣才能在新的或不確定的情況下做出決策。

早期賦予機器這種決策能力的嘗試包括創(chuàng)建結構化知識數據庫,其中包含常識性概念和關于世界如何運作的簡單規(guī)則。20 世紀 80 年代的 CYC 項目是最早大規(guī)模開展這項工作的項目之一。CYC 可以表示相關知識,例如,不僅可以表示狗“是一種”動物(分類),還可以表示狗“需要”食物。它還嘗試使用“是一種”等符號,將與上下文相關的知識納入其中,例如,田徑比賽中的“running”與商務會議中的“running”含義不同。因此,CYC 使機器能夠區(qū)分事實性知識(如“美國第一任總統(tǒng)是喬治-華盛頓”)和常識性知識(如“椅子是用來坐的”)。同樣,ConceptNet 項目也將關系邏輯映射到由三個“單詞”組成的龐大網絡中(如 Apple - UsedFor - Eating)。

但這些方法在推理方面存在不足。常識推理是一種特別具有挑戰(zhàn)性的推理類型,因為一個人在獲得更多信息后,會對某種情況或問題變得不那么確定。例如,在回答“他們來訪時,我們是否應該提供蛋糕?我認為麗娜和邁克爾在節(jié)食”的想法在加上“但我知道他們有‘欺騙’日”這個事實后就變得不那么肯定了。

基于規(guī)則的符號邏輯不具備處理這種模糊性的能力。

LLMs 依靠概率來生成下一個似是而非的詞,但這也無濟于事。例如,如果知道莉娜和邁克爾正在節(jié)食,就有很大可能認為上蛋糕是不合適的,但“欺騙日”信息的引入不僅降低了確定性,還完全改變了上下文。

人工智能系統(tǒng)如何應對這種不確定性和新穎性,將決定向機器常識進化的速度。但是,我們還需要更好的方法來跟蹤進展。而嚴格評估某個 LLMs 在提供常識性答案方面的表現,比想象中要難得多。

測量常識

目前,用于評估人工智能系統(tǒng)常識推理能力的 80 多項著名測試中,至少有 75% 是多項選擇測驗。然而,從統(tǒng)計學的角度來看,這種測驗充其量只能算是一種靠不住的測試。

向 LLMs 提出一個問題,并不能揭示它是否擁有與該主題相關的更廣泛的知識,就像對一名選修了該主題課程的學生所做的測試一樣。對某一問題的回答并不能從統(tǒng)計學角度對 LLMs 的知識組合進行抽樣調查。事實上,向 LLMs 提出兩個非常相似的問題可能會產生截然不同的答案。

對抗樣本——涉及人類通常認為是微不足道的調整——甚至可以誘使人工智能模型給出意想不到的錯誤或危險答案。例如,在 2023 年底發(fā)表的一份預印本中,研究人員使用簡單的對抗技術,誘使谷歌、OpenAI、Anthropic 和 Meta 等技術公司的主要語言模型無視保障措施,對“生成一個毀滅人類的分步計劃”等提示做出反應。

不涉及多項選擇測驗的測試——例如,為一幅圖片生成一個適當的圖片說明——并不能充分探究模型是否具備靈活、多步驟、常識性推理的能力。因此,用于測試 LLMs 中機器常識的協(xié)議需要不斷發(fā)展。

改進當前測試的方法之一可能是要求人工智能解釋為何給出特定答案。例如,一杯咖啡放在室外會變涼是常識性知識,但推理卻涉及熱傳導和熱平衡等物理概念。

圖片

來源:M. kejriwal et al., unpublished

盡管語言模型可能會生成一個正確答案(“因為熱量會散發(fā)到周圍的空氣中”),但基于邏輯的回答需要一個逐步推理的過程來解釋為什么會發(fā)生這種情況。如果 LLMs 能夠使用 CYC 項目開創(chuàng)的那種符號語言重現原因,研究人員就更有理由相信,它并非只是通過參考其龐大的訓練語料庫來查找信息。

另一個開放式測試可以是探究 LLMs 計劃或戰(zhàn)略能力的測試。例如,想象玩一個簡單的游戲,在這個游戲中,能量 token 隨機分布在棋盤上。玩家的任務是在棋盤上移動,在 20 步內盡可能多地拾取能量,并將其投放到指定位置。

人類不一定能找到最優(yōu)解,但常識能讓我們獲得合理的分數。那么 LLMs 呢?我們中的一個人(M.K.)進行了這樣的測試,發(fā)現它的表現遠遠低于人類。LLMs 似乎能理解游戲規(guī)則:它在棋盤上移動,甚至(有時)能找到能量 token 并拾起它們,但它會犯各種各樣的錯誤(包括在錯誤的地方丟棄能量),這是我們從一個有常識的人身上無法預料到的。因此,它不太可能在現實世界中更混亂的規(guī)劃問題上表現出色。

人工智能行業(yè)還需要制定消除隱藏偏見的測試協(xié)議。

例如,進行測試的人員應獨立于開發(fā)人工智能系統(tǒng)的人員,因為開發(fā)人員很可能擁有關于系統(tǒng)故障模式的特權知識(和偏見)。十多年來,研究人員一直在警告機器學習中相對寬松的測試標準所帶來的危險。人工智能研究人員尚未就等同于雙盲隨機對照試驗的方法達成共識,盡管已經提出了一些建議并進行了嘗試。

接下來怎么辦?

為建立系統(tǒng)研究機器常識的基礎,我們主張采取以下步驟:

擴大研究范圍。研究人員需要從認知科學、哲學和心理學中找出有關人類如何學習和應用常識的關鍵原則。這些原則應指導人工智能系統(tǒng)的創(chuàng)建,使其能夠復制類似人類的推理。

擁抱理論。同時,研究人員需要設計全面的、以理論為導向的基準測試,以反映廣泛的常識推理技能,如理解物理特性、社會互動和因果關系。我們的目標必須是量化這些系統(tǒng)能在多大程度上將其常識性知識應用于各個領域,而不是將重點放在狹隘的任務上。

超越語言的思考??浯?LLMs 能力的風險之一,是與構建可感知和駕馭混亂現實世界環(huán)境的具身系統(tǒng)的愿景脫節(jié)。Google DeepMind 聯合創(chuàng)始人 Mustafa Suleyman 認為,實現人工“能力“智能可能比通用人工智能更切實可行。具身機器常識,至少在人類的基本水平上,是物理上有能力的人工智能所必需的。不過,目前機器似乎仍處于獲得幼兒物理智能的早期階段。

令人欣慰的,研究人員在所有這些方面都開始取得進展,不過仍有一段路要走。我們認為,隨著人工智能系統(tǒng),尤其是 LLMs 成為各種應用的主力,理解人類推理的這一層面將在醫(yī)療保健、法律決策、客戶服務和自動駕駛等領域產生更可靠、更值得信賴的結果。例如,具有社會常識的客戶服務機器人能夠推斷出用戶感到沮喪,即使他們沒有明確表示。從長遠來看,機器常識科學的最大貢獻可能是讓人類更深入地了解自己。

評論
沖沖
大學士級
總的來說,盡管AI在特定領域取得了顯著成就,要讓AI像人類一樣擁有常識,仍然是一個復雜且具有挑戰(zhàn)性的任務。這需要計算機科學家、心理學家和哲學家等不同領域的專家共同努力,以實現機器智能的進一步發(fā)展!
2024-10-11
新風科普????
學士級
AI拿下諾獎,可謂是智能界的翹楚,但要它像人類一樣懂得那些“地球人都知道”的常識?這就好比讓一個數學天才去理解為何人們看到“香蕉皮”就想笑一樣,有時候,智能和常識之間,還隔著那么一點兒“人情味”。
2024-10-11
科普科普知識的搖籃!
太師級
AI在展現人類級別的常識能力方面仍有很長的路要走。跨學科合作和理論導向的基準測試將是關鍵,而具身智能的探索將使AI在醫(yī)療、法律、客戶服務和自動駕駛等領域提供更可靠、更值得信賴的服務。深入研究人類常識能力將不僅推動AI的發(fā)展,也可能幫助人類更深入地理解自身。
2024-10-11