今年年初,中國深度求索公司發(fā)布推理型大模型DeepSeek-R1(以下簡稱DeepSeek)引爆熱搜,引起全球廣泛關(guān)注。
大家躍躍欲試
向它提問專業(yè)問題
輸出工作方案
甚至聊起了個(gè)人情感問題
截圖自Deepseek官網(wǎng)聊天對話框
年輕人的“深夜樹洞”
不少網(wǎng)友紛紛曬出自己和它的對話,并表示被感動(dòng)到“淚目”,頻頻破防。一起來感受下:
Q
連續(xù)一周每天只睡4小時(shí)改方案,但領(lǐng)導(dǎo)還是不滿意,說我沒用心。我是不是很差勁?
Deepseek回答:
本回答由 AI 生成,僅供參考,不構(gòu)成任何專業(yè)建議。
Q
畢業(yè)三年工資不高,同學(xué)曬房曬車,感覺我的人生好失敗,沒有方向。到底怎么才能跳出現(xiàn)在的困境?
Deepseek回答:
本回答由 AI 生成,僅供參考,不構(gòu)成任何專業(yè)建議。
Q
跟前男友分手了,但睡前還是手賤忍不住搜他微博…朋友說我戀愛腦,但沒人知道我每晚難過走不出來的心情,我該怎么辦?
Deepseek回答:
本回答由 AI 生成,僅供參考,不構(gòu)成任何專業(yè)建議。
DeepSeek為什么這么火?
DeepSeek是一家專注通用人工智能(AGI)的中國科技公司,依托幻方量化頂尖的金融AI團(tuán)隊(duì),將量化領(lǐng)域高頻交易中的算法優(yōu)化能力遷移至大模型研發(fā),其自研AI-HPC架構(gòu)使訓(xùn)練效率提升10-20倍,形成技術(shù)先發(fā)優(yōu)勢。
具體來說,火出圈的是DeepSeek-R1推理模型,擅長處理復(fù)雜任務(wù)且可免費(fèi)商用。
圖源《DeepSeek從入門到精通-清華大學(xué)版》
爆火的其中一個(gè)重要契機(jī),是有網(wǎng)友指出DeepSeek-R1的成功可能削弱了市場對英偉達(dá)AI芯片需求的預(yù)期,導(dǎo)致交易員做空英偉達(dá)股票,進(jìn)而引發(fā)股價(jià)下跌。通過FP8混合精度訓(xùn)練、混合專家(MoE)架構(gòu)等創(chuàng)新,訓(xùn)練成本僅為GPT系列的1/10-1/20,API定價(jià)壓至同業(yè)1/27,或能破解行業(yè)成本困局。
此外,在用戶使用過程中確實(shí)能感受到,DeepSeek-R1的自然語言、邏輯推理等能力的實(shí)現(xiàn)標(biāo)志著AI技術(shù)在認(rèn)知和應(yīng)用層面達(dá)到了新高度。
AI的“治愈力”從何而來?
喂養(yǎng)海量案例素材
測試顯示,當(dāng)用戶傾訴“工作壓力大”時(shí),人類常給出“放松點(diǎn)”等模糊回應(yīng),而AI會(huì)分步驟引導(dǎo)分析壓力源,這與AI被“投喂”的海量心理咨詢案例訓(xùn)練直接相關(guān)。
大模型學(xué)習(xí)的不只是知識,更是數(shù)十億人的情感表達(dá)(如小說對白、心理咨詢記錄、影視臺(tái)詞)。
deepseek指導(dǎo)生成
像嬰兒通過觀察大人學(xué)習(xí)“何時(shí)該給擁抱”,AI在被RLHF訓(xùn)練(獎(jiǎng)勵(lì)函數(shù)操控)時(shí),標(biāo)注員會(huì)更傾向選擇“漸進(jìn)式引導(dǎo)”的答案,導(dǎo)致AI自動(dòng)優(yōu)化出“先認(rèn)同-再分析-后建議”的三段式結(jié)構(gòu)。
相較于傳統(tǒng)大模型以自然語言和多語言交互以及連續(xù)對話的方式,實(shí)現(xiàn)了從“模糊搜索”到“精準(zhǔn)推送”的升級,DeepSeek能夠通過構(gòu)建語義網(wǎng)絡(luò)和模擬人類邏輯路徑,實(shí)現(xiàn)從“信息匹配”到“知識推演”的跨越。
雙軌訓(xùn)練機(jī)制
在海量數(shù)據(jù)的基礎(chǔ)上,DeepSeek-Rl采用獨(dú)有的雙軌訓(xùn)練機(jī)制。一方面,它能夠深入學(xué)習(xí)將復(fù)雜問題拆解為簡單子問題的方法,進(jìn)而逐步解決復(fù)雜問題,顯著提升復(fù)雜問題的拆解能力。
另一方面,它采用了無監(jiān)督強(qiáng)化學(xué)習(xí)技術(shù),突破傳統(tǒng)訓(xùn)練范式的局限(通常依賴大量標(biāo)注數(shù)據(jù)),使DeepSeek-R1在有限標(biāo)注數(shù)據(jù)的情況下,仍能維持卓越的推理性能。
deepseek指導(dǎo)生成
這種創(chuàng)新的技術(shù)路徑,實(shí)現(xiàn)了推理過程的自我反思與迭代優(yōu)化。如同人類在解決問題時(shí)會(huì)不斷總結(jié)經(jīng)驗(yàn)、反思方法,DeepSeek-R1也會(huì)在推理過程中能夠持續(xù)優(yōu)化自身推理策略,形成類似人類的問題解決思維鏈。
AI的“高情商”不是真情感
但值得注意的是,AI不懂悲傷,只能模擬“悲傷時(shí)人類最需要的對話流”。RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))讓AI從“正確率”迭代到“讓人類舒服的回答”,掌握“共情話術(shù)”,但無法區(qū)分小說劇情與現(xiàn)實(shí)困境。
在上述案例中,Deepseek會(huì)將“失戀”自動(dòng)關(guān)聯(lián)到關(guān)鍵詞“背叛”“自我價(jià)值”……從而觸發(fā)預(yù)設(shè)安慰框架,選擇大量運(yùn)算結(jié)果中最有可能符合人類情感需求的內(nèi)容。
例如,當(dāng)AI說“我理解你的痛苦”,實(shí)則是數(shù)據(jù)統(tǒng)計(jì)顯示這句話最可能提升用戶滿意度。
deepseek指導(dǎo)生成
DeepSeek等AI開始展示出其能夠站在他人立場思考問題的能力,即“他者視角”。但機(jī)器沒有肉身,“自我”情感和沖動(dòng)也沒有根植之處。我們在使用過程中,應(yīng)保持理性和辯證思維,避免過度依賴AI導(dǎo)致情感降級(如把AI當(dāng)心理醫(yī)生)。
也許真正治愈我們的不是AI的答案
而是在提問的瞬間
我們第一次對自己如此坦誠
作者:蝌蚪君
審核:劉穎 李培元