版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

DeepSeek新應(yīng)用!這群杭州90后做的事上熱搜

浙江省科學(xué)技術(shù)協(xié)會(huì)
原創(chuàng)
浙江科普是浙江省科協(xié)旗下官方科普賬號(hào)。
收藏

東坡肉、蘑菇炒青菜、清蒸鯽魚(yú)、蝦仁豆腐……做了滿滿一桌菜,拍張照片扔給AI,問(wèn)它:圖片里的哪種食物蛋白質(zhì)含量最高?哪道菜尿酸偏高的人不宜多吃?

AI深度思考了幾秒鐘,打出推理全過(guò)程,最后在圖片上將答案圈了出來(lái)。

這是學(xué)會(huì)推理的多模態(tài)大模型,未來(lái)在日常生活中的一個(gè)應(yīng)用小場(chǎng)景。此前,這種“長(zhǎng)眼睛”、擅長(zhǎng)推理的AI還停留在想象階段。不過(guò)最近,來(lái)自杭州Om AI Lab的一群95后,已經(jīng)成功地將DeepSeek-R1的訓(xùn)練方法,從純文本領(lǐng)域遷移到視覺(jué)語(yǔ)言領(lǐng)域,打開(kāi)了多模態(tài)大模型的更多想象空間。

他們還將這個(gè)名叫VLM-R1的項(xiàng)目開(kāi)源,發(fā)布在全球最大的代碼托管平臺(tái)GitHub上,上線僅一周,就獲得各國(guó)開(kāi)發(fā)者給出的2.7k Stars(星標(biāo)),并在2月21日登上熱門趨勢(shì)榜。這一成績(jī)?cè)谶@個(gè)開(kāi)源社區(qū)里堪稱亮眼。

VLM-R1上線GitHub一周的Star(星標(biāo))數(shù)據(jù)曲線

2月21日上了GitHub熱門趨勢(shì)榜

這支研發(fā)團(tuán)隊(duì)的帶頭人,是名90后——Om AI Lab的創(chuàng)始人趙天成博士,他同時(shí)也是浙江大學(xué)濱江研究院Om人工智能中心主任、博士生導(dǎo)師。

將教DeepSeek-R1推理的方法

帶到機(jī)器視覺(jué)領(lǐng)域

DeepSeek-R1模型的獨(dú)特之處,在于DeepSeek對(duì)通用的模型推理步驟進(jìn)行了調(diào)整。此前,模型在提升推理能力時(shí),通常依賴“監(jiān)督微調(diào)”(即SFT,監(jiān)督式微調(diào))這個(gè)環(huán)節(jié)。簡(jiǎn)單來(lái)說(shuō),就是拿一個(gè)已經(jīng)學(xué)了不少東西的大模型,用一些特定的、標(biāo)記好的數(shù)據(jù),來(lái)教它如何更好地完成某個(gè)任務(wù)。這就好比你已會(huì)做菜,但具體到川菜或徽菜,還需通過(guò)專門的練習(xí)來(lái)掌握烹飪技巧。

而DeepSeek-R1在訓(xùn)練過(guò)程中直接跳過(guò)了這個(gè)環(huán)節(jié),進(jìn)入“強(qiáng)化學(xué)習(xí)”階段,探索大模型在沒(méi)有監(jiān)督數(shù)據(jù)的情況下,通過(guò)純強(qiáng)化學(xué)習(xí)進(jìn)行自我進(jìn)化。這種創(chuàng)新性的強(qiáng)化學(xué)習(xí)方法,有個(gè)專業(yè)名詞,叫群組相對(duì)策略優(yōu)化(Group Relative Policy Optimization,GRPO)。

GRPO已經(jīng)幫助DeepSeek-R1學(xué)習(xí)推理,那是否也能幫助AI模型在一般計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)得更強(qiáng)?

Om AI Lab研發(fā)團(tuán)隊(duì)反復(fù)實(shí)驗(yàn)后的答案是:可以。

他們?cè)谝粋€(gè)視覺(jué)定位任務(wù)中,訓(xùn)練了通義開(kāi)源視覺(jué)理解模型Qwen2.5-VL。在此基礎(chǔ)上,同時(shí)用R1方法和SFT方法進(jìn)行對(duì)比。目前得出的結(jié)論是:R1方法在各種復(fù)雜場(chǎng)景下,都能保持穩(wěn)定的高性能。這在實(shí)際應(yīng)用時(shí)至關(guān)重要。

如下圖的街景照片,給AI的任務(wù)是:定位出圖中可能對(duì)視障人士行走造成危險(xiǎn)的物體。

在路邊人行道的場(chǎng)景里,人類能想到對(duì)視障人士造成行走障礙的,通常是石墩子、公交站牌、行人等,這些就是可以提前標(biāo)記好的“數(shù)據(jù)”。但在這張圖中,出現(xiàn)了一個(gè)比較特殊的情況——臺(tái)階。

從趙天成團(tuán)隊(duì)的實(shí)驗(yàn)看,經(jīng)過(guò)R1方法訓(xùn)練的AI模型,能夠成功推理出臺(tái)階在這個(gè)場(chǎng)景中會(huì)對(duì)視障人士造成危險(xiǎn)。

“對(duì)人類來(lái)說(shuō),這屬于常識(shí)性推理,再容易不過(guò)。但對(duì)于此前傳統(tǒng)的計(jì)算機(jī)視覺(jué)模型而言,這其實(shí)非常難。”趙天成解釋。

又如下面這張圖,桌子上放著山藥、雞蛋餅、毛豆、青菜、咖啡和橙子,讓AI定位圖中含維生素C最多的食物。

使用R1方法訓(xùn)練的AI模型,很快鎖定了橙子并附上思考過(guò)程?!耙郧八苯o答案,不會(huì)告訴你解題思路,且錯(cuò)誤率偏高,比如10道題最多答對(duì)四五題,而用R1方法訓(xùn)練的,能答對(duì)七八題?!?/p>

此外,機(jī)器學(xué)習(xí)領(lǐng)域有一種很常見(jiàn)的情況:用任務(wù)A去訓(xùn)練模型,隨著訓(xùn)練步數(shù)(訓(xùn)練模型所執(zhí)行的迭代次數(shù))的增加,在跟A沒(méi)有那么相似的任務(wù)B上,它的性能會(huì)變差(圖中紅色曲線)?!坝悬c(diǎn)‘摁了葫蘆起了瓢’的意思。所以以前做多任務(wù)時(shí),還要精心控制任務(wù)間的比例。”而使用R1方法訓(xùn)練的AI模型(圖中綠色曲線)并不會(huì)出現(xiàn)這種趨勢(shì),這意味著R1方法能幫助模型真正“學(xué)會(huì)”理解視覺(jué)內(nèi)容,而不是簡(jiǎn)單地記憶。

綠色曲線是使用R1方法訓(xùn)練,紅色曲線是使用傳統(tǒng)的SFT方法。

為視覺(jué)語(yǔ)言模型訓(xùn)練

打了新思路

“實(shí)驗(yàn)從春節(jié)長(zhǎng)假期間開(kāi)始啟動(dòng)。好在前期積累比較多,很多‘基礎(chǔ)設(shè)施’是現(xiàn)成的,有了想法后,能快速進(jìn)行實(shí)驗(yàn)、驗(yàn)證結(jié)果?!苯M成團(tuán)隊(duì)的10人,有研究院的研發(fā)人員,也有趙天成帶的博士生。

2月15日,趙天成在海外社交平臺(tái)上發(fā)布VLM-R1的實(shí)驗(yàn)結(jié)果,并將它開(kāi)源、上傳到GitHub,截至2月22日,已獲得全球開(kāi)發(fā)者們給出的2.7k Stars。

大大小小的交流切磋問(wèn)題蜂擁而來(lái):要訓(xùn)練多久,最低顯存是多少,能否再多分享幾個(gè)模型思考過(guò)程……

“雖然底層邏輯是相通的,但視覺(jué)和數(shù)學(xué)、代碼是完全不同的模態(tài)。怎么在視覺(jué)領(lǐng)域進(jìn)行設(shè)計(jì),讓它真正跑通,團(tuán)隊(duì)其實(shí)也經(jīng)歷了多次試錯(cuò),才找到目前這樣一個(gè)比較有效的組合?!壁w天成坦言,現(xiàn)在這個(gè)版本只能算是0.1版,遠(yuǎn)未達(dá)到成熟,“有一些問(wèn)題,需要繼續(xù)用更多實(shí)驗(yàn)來(lái)解答?!?/p>

在他看來(lái),這段時(shí)間的實(shí)驗(yàn),最大意義之一是為多模態(tài)模型的訓(xùn)練和行業(yè)提供了一些新的思路。它證明了R1方法的通用性,“不僅在文本領(lǐng)域表現(xiàn)出色,還可能引領(lǐng)一種全新的視覺(jué)語(yǔ)言模型訓(xùn)練潮流。”

“做一個(gè)勇于嘗試的引領(lǐng)者

比在風(fēng)口追隨著他人來(lái)得重要”

Om AI Lab背后的母公司聯(lián)匯科技,位于杭州濱江互聯(lián)網(wǎng)產(chǎn)業(yè)園,這里曾是阿里、網(wǎng)易崛起的搖籃,互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)從這里走入我們的日常生活。眼下,人工智能成了主角,這家公司正在致力于人工智能智能體平臺(tái)的應(yīng)用和落地。

2月21日,由趙天成帶隊(duì)的Om AI Lab,在上海舉行的2025全球開(kāi)發(fā)者先鋒大會(huì)(GDC)上,帶去了基于R1強(qiáng)化學(xué)習(xí)的視覺(jué)理解多模態(tài)模型VLM-R1的首秀,以及開(kāi)源大語(yǔ)言模型智能體評(píng)測(cè)平臺(tái)Open Agent Leaderboard。

趙天成 (陳中秋 攝)

去年8月,趙天成在接受采訪時(shí)說(shuō),他始終記得當(dāng)年在美國(guó)卡耐基梅隆大學(xué)(CMU)求學(xué)時(shí)導(dǎo)師說(shuō)的一句話:To be a leader, not a follower,做一個(gè)勇于嘗試的引領(lǐng)者,遠(yuǎn)比在風(fēng)口追隨著他人來(lái)得重要。

(來(lái)源:潮新聞)

評(píng)論
華科普
大學(xué)士級(jí)
人工智能越來(lái)越發(fā)達(dá),涉及的應(yīng)用面越來(lái)越廣!
2025-02-25
沖沖
大學(xué)士級(jí)
總的來(lái)說(shuō),DeepSeek的新應(yīng)用和技術(shù)創(chuàng)新展示了中國(guó)AI領(lǐng)域的強(qiáng)大潛力和創(chuàng)新能力,未來(lái)有望在更多領(lǐng)域?qū)崿F(xiàn)突破!
2025-02-25
科普科普知識(shí)的搖籃!
大學(xué)士級(jí)
在AI浪潮中,點(diǎn)贊????杭州一群95后青年勇立潮頭。他們把DeepSeek-R1的訓(xùn)練智慧引入視覺(jué)語(yǔ)言天地,打造VLM-R1并開(kāi)源,為多模態(tài)大模型發(fā)展點(diǎn)亮創(chuàng)新之光,備受全球矚目 。
2025-02-25