在兒童時期,一個人是怎樣學(xué)會“第一個單詞”的?又是如何把“聽到的”和“看到的”的事物聯(lián)系起來的?
長久以來,盡管人們針對這一話題進(jìn)行了廣泛的討論,并提出了多種假設(shè),但相關(guān)研究結(jié)果缺乏對現(xiàn)實世界的普適性。
如今,一種新的人工智能(AI)模型,或許可以給我們提供一些更有說服力的線索。
由紐約大學(xué)數(shù)據(jù)科學(xué)中心研究科學(xué)家 Wai Keen Vong 領(lǐng)導(dǎo)的研究團(tuán)隊,基于一名兒童(baby S)一年多(從 6 個月到 25 個月)第一視角錄制的視頻和音頻數(shù)據(jù),訓(xùn)練了一個多模態(tài)人工智能系統(tǒng)——基于兒童視角的對比學(xué)習(xí)(Child’s View for Contrastive Learning,CVCL)模型,為人類早期語言學(xué)習(xí)提供了新的見解。
圖|6 個月大的 baby S 佩戴著頭戴式攝像機。(來源:Wai Keen Vong)
更重要的是,該研究不僅為了解兒童如何學(xué)習(xí)語言和概念提供了一個有價值的框架,而且對在下一代多模態(tài)人工智能系統(tǒng)在語言和視覺表征之間建立聯(lián)系,以及開發(fā)能以更像人類的方式學(xué)習(xí)語言的人工智能系統(tǒng)至關(guān)重要。
相關(guān)研究論文以“Grounded language acquisition through the eyes and ears of a single child”為題,已發(fā)表在權(quán)威科學(xué)期刊 Science 上。
“我們首次展示了,根據(jù)來自一個兒童的現(xiàn)實生活真實場景輸入進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò),可以學(xué)會將單詞與它們的視覺對應(yīng)物聯(lián)系起來,” Vong 說,“我們的研究結(jié)果表明,最近的算法進(jìn)步與一個孩子的自然體驗是如何有潛力重塑我們對早期語言和概念獲取的理解的。”
“經(jīng)典爭論”有望被解決
盡管 GPT-4 等大模型可以學(xué)習(xí)和使用人類語言,但它們是從天文數(shù)字般的語言輸入中學(xué)習(xí)的,比兒童在學(xué)習(xí)如何理解和使用一種語言時接受的要多得多,兒童每年只能接收數(shù)百萬字的文本。
而且,大約在 6-9 個月大時,兒童開始學(xué)習(xí)第一個單詞,便能把聽到的單詞和看到的事物聯(lián)系起來。
這就涉及到一個有關(guān)兒童學(xué)習(xí)語言需要哪些要素的經(jīng)典爭論——
兒童在學(xué)習(xí)語言時能在多大程度上依賴于觀察和經(jīng)驗(即通過相對通用的學(xué)習(xí)機制從感官輸入中學(xué)習(xí))?又有多少需要更強的天生或先天學(xué)習(xí)傾向(即歸納偏見)?
“歸納偏見”(inductive biases)是機器學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域中的一個重要概念,是指算法在學(xué)習(xí)過程中對某些解決方案的天然偏好或預(yù)設(shè)傾向。這種偏見影響了算法從數(shù)據(jù)中歸納和學(xué)習(xí)的方式,在沒有足夠多信息的情況下,可以幫助算法做出合理的假設(shè)或決策。
“歸納偏見”對于算法的有效性至關(guān)重要,有助于算法在接收新數(shù)據(jù)后做出更合理的預(yù)測,避免因過于依賴訓(xùn)練數(shù)據(jù)的特定特征而導(dǎo)致泛化能力變差,即在新數(shù)據(jù)上表現(xiàn)不佳。
例如,假設(shè)一個機器學(xué)習(xí)模型的任務(wù)是根據(jù)以往的天氣數(shù)據(jù)預(yù)測明天的天氣。如果這個模型有歸納偏見,認(rèn)為天氣模式通常是連續(xù)的(即今天的天氣狀況會影響到明天的天氣),那么它在做出預(yù)測時就會依據(jù)這個偏見。
紐約大學(xué)數(shù)據(jù)科學(xué)中心和心理學(xué)系助理教授、論文作者之一 Brenden Lake 認(rèn)為,通過使用人工智能模型研究兒童面臨的實際語言學(xué)習(xí)問題,人類或許可以解決關(guān)于兒童學(xué)習(xí)單詞所需成分的經(jīng)典爭論。
為此,他們利用安裝在 baby S 頭部的輕便攝像頭,記錄了總時長超過 60 小時的第一人稱視角學(xué)習(xí)過程的視頻。
這些視頻記錄了大約 25 萬個單詞實例(即交流中使用的單詞數(shù)量,很多都是重復(fù)的),這些單詞與兒童在聽到這些詞時所看到的畫面相關(guān)聯(lián),涵蓋了從進(jìn)餐、讀書到玩耍等不同階段的多種活動。
然后,研究團(tuán)隊基于這些數(shù)據(jù)訓(xùn)練了一個多模態(tài)神經(jīng)網(wǎng)絡(luò),即前面提到的 CVCL 模型。
圖|CVCL 模型架構(gòu)和評估程序。(來源:該論文)
據(jù)論文描述,CVCL 模型由兩個獨立的模塊組成:視覺編碼器處理單幀視頻,語言編碼器處理轉(zhuǎn)錄的面向兒童的語言。兩者結(jié)合起來,并使用對比學(xué)習(xí)算法進(jìn)行訓(xùn)練,從而學(xué)習(xí)有用的輸入特征及其跨模態(tài)關(guān)聯(lián)。例如,當(dāng)父母在兒童面前說話時,使用的某些詞很可能指的是兒童能看到的某些東西,也就是通過聯(lián)系視覺和語言線索來培養(yǎng)理解能力。
然而,令人驚訝的是,基于有限的數(shù)據(jù),CVCL 模型真的學(xué)會了大量單詞和概念。
Vong 解釋說:“這為模型提供了關(guān)于哪些單詞應(yīng)該與哪些對象關(guān)聯(lián)的線索。結(jié)合這些線索,就是對比學(xué)習(xí)能夠逐漸確定哪些詞與哪些視覺內(nèi)容相匹配,并捕捉到孩子學(xué)習(xí)第一個詞的過程的關(guān)鍵。”
針對這一結(jié)果,Lake 表示,“看起來,僅通過學(xué)習(xí),我們可以獲得的東西比通常認(rèn)為的要多?!?/strong>
像兒童一樣學(xué)習(xí)
之后,研究團(tuán)隊對 CVCL 模型的訓(xùn)練效果進(jìn)行了兩項評估。
首先,他們采用與評估兒童學(xué)習(xí)的常用方法來測試模型。結(jié)果顯示,CVCL 模型能夠?qū)W會人類兒童日常經(jīng)驗中大量的單詞和概念,甚至能夠將學(xué)到的一些單詞泛化到與訓(xùn)練時完全不同的視覺環(huán)境中,這與實驗室中測試兒童時觀察到的現(xiàn)象一致。
然后,他們針對單詞-對象的映射質(zhì)量,也對 CVCL 模型及其他替代模型進(jìn)行了評估。通過提示模型選擇與目標(biāo)單詞匹配的圖像,他們發(fā)現(xiàn) CVCL 模型的分類準(zhǔn)確度達(dá)到了 61.6%。在針對 22 個視覺概念的評估中,CVCL 模型在 11 個概念上的表現(xiàn)接近了同類模型的性能(這些同類模型擁有更大的數(shù)據(jù)集)。
這一研究表明,即便在有限的兒童經(jīng)驗中,使用具有相對通用學(xué)習(xí)機制的人工智能模型也能夠?qū)崿F(xiàn)重要的單詞學(xué)習(xí)。同時,這一研究為兒童語言學(xué)習(xí)理論提供了新的視角,強調(diào)了學(xué)習(xí)和交叉情境機制的重要性。
然而,該研究也存在一些局限性,并不能完全概括兒童在后續(xù)成長中的學(xué)習(xí)模式,互斥性、對比原則、形狀偏好、句法線索、社交或手勢線索以及假設(shè)生成等其他因素,都可能發(fā)揮作用。而且,研究團(tuán)隊也并未考慮不同兒童的活躍性、具體動作等對學(xué)習(xí)過程的影響。
只有將這些因素納入模型或訓(xùn)練過程,系統(tǒng)性地測試它們對單詞學(xué)習(xí)的貢獻(xiàn),才可以更全面地模擬人類幼崽實際的學(xué)習(xí)過程。
只是一個開始
近年來,除了 CVCL 模型,科學(xué)家也開展了一系列有關(guān)人工智能系統(tǒng)模仿兒童認(rèn)知的研究。
例如,2022 年,DeepMind 的深度學(xué)習(xí)系統(tǒng) PLATO 受兒童視覺認(rèn)知啟發(fā),以類似兒童的方式學(xué)習(xí)了物理世界的基本常識性規(guī)則。據(jù)介紹,通過觀看視頻,在僅僅 28 個小時內(nèi),PLATO 便能夠感知并預(yù)測物體的行為,展現(xiàn)出對常識性知識的直觀理解,表現(xiàn)出對未知物體和動力學(xué)的驚人魯棒性。
圖|PLATO 使用感知模型和動態(tài)模型對每個物體進(jìn)行預(yù)測。(來源:Nature Human Behaviour)
此外,研究發(fā)現(xiàn),PLATO 不僅能夠?qū)⑵谕爬橐唤M新的對象和事件,還能在相對小的數(shù)據(jù)集上成功演示學(xué)習(xí)。這些發(fā)現(xiàn),與科學(xué)家此前在兒童研究中看到的特征相似。
以上成功案例表明,即使在有限的情境中,通過結(jié)合表示學(xué)習(xí)和聯(lián)想學(xué)習(xí)兩種機制,人工智能也能在語言學(xué)習(xí)方面取得重大進(jìn)展。
那么,未來的人工智能最終是否可以完全像人一樣思考呢?
按照人工智能之父 Alan Turing 在 1950 年的說法,如果從學(xué)習(xí)兒童的思維開始,并接受適當(dāng)?shù)慕?jīng)驗,計算機就可以像成年人一樣思考。
“與其嘗試制作一個模擬成人思維的程序,為何不嘗試制作一個模擬兒童思維的程序呢?”
或許這些研究,只是一個好的開始。
參考鏈接:
https://www.science.org/doi/10.1126/science.adi1374https://www.nature.com/articles/s41562-022-01394-8