版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

來自浙江!“深度求索”DeepSeek-V3模型震驚全球AI圈

浙江省科學(xué)技術(shù)協(xié)會(huì)
原創(chuàng)
浙江科普是浙江省科協(xié)旗下官方科普賬號(hào)。
收藏

一個(gè)來自中國的開源模型,讓整個(gè)AI圈再次驚呼“來自東方的神秘力量”。

近日,國內(nèi)知名大模型創(chuàng)業(yè)公司“深度求索”通過官方公眾號(hào)宣布上線并同步開源 DeepSeek-V3模型,并公布了長(zhǎng)達(dá)53頁的訓(xùn)練和技術(shù)細(xì)節(jié)。

和許多報(bào)告語焉不詳相比,這份報(bào)告做到了真正的開源。不僅透露得到大幅升級(jí)的V3模型是在一個(gè)“難以想象”的預(yù)算下訓(xùn)練完成的:整個(gè)訓(xùn)練僅花費(fèi)了557.6萬美元,在2048xH800集群上運(yùn)行55天完成,還很坦誠地公布了技術(shù)細(xì)節(jié)。

01真正的花小錢辦大事

這筆費(fèi)用是什么概念呢?Anthropic CEO Dario Amodei曾透露,GPT-4o這樣的模型訓(xùn)練成本約為1億美元。

換句話說,與 Llma、GPT 或 Claude 這些全球知名大模型相比,DeepSeek-V3的這個(gè)成本幾乎可以忽略不計(jì)。

成本低不代表效果差,DeepSeek羅列了若干個(gè)指標(biāo):

百科知識(shí):DeepSeek-V3在知識(shí)類任務(wù)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。

長(zhǎng)文本: 在長(zhǎng)文本測(cè)評(píng)中,DROP、FRAMES和 LongBench v2上,DeepSeek-V3平均表現(xiàn)超越其他模型。

代碼:DeepSeek-V3在算法類代碼場(chǎng)景(Codeforces),遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非o1類模型;并在工程類代碼場(chǎng)景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

數(shù)學(xué): 在美國數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)上,DeepSeek-V3得分 為90.2%,而Claude-3.5-Sonnet為 78.3%,GPT-4o為 74.6%。

中文能力:DeepSeek-V3與Qwen2.5-72B在教育類測(cè)評(píng)C-Eval和代詞消歧等評(píng)測(cè)集上表現(xiàn)相近,但在事實(shí)知識(shí) C-SimpleQA上更為領(lǐng)先。

簡(jiǎn)單說,從技術(shù)報(bào)告公布的性能指標(biāo)上來看,這個(gè)開源MoE模型,已經(jīng)在性能上對(duì)齊甚至在一些方面顯著超越了海外領(lǐng)軍的閉源模型。

對(duì)此,OpenAI創(chuàng)始成員Karpathy點(diǎn)評(píng):DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。它看起來比Llama 3 405B更強(qiáng),訓(xùn)練消耗的算力卻僅為后者的1/11。

Meta科學(xué)家田淵棟感慨:這是非常偉大的工作。

02創(chuàng)始人畢業(yè)于浙大,曾是量化基金大佬

說起國產(chǎn)大模型,很多人聽說過“五虎”和“四小龍”,但很少有人聽說過深度求索DeepSeek。因?yàn)樗麄兪俏ㄒ灰患覜]有做2C應(yīng)用的公司,選擇了開源路線,至今沒有融過資。

這也不是深度求索第一次展現(xiàn)神奇的力量。在硅谷,深度求索DeepSeek很早被稱作“來自東方的神秘力量”。

今年5月,深度求索DeepSeek發(fā)布發(fā)DeepSeekV2,因?yàn)閯?chuàng)新的模型架構(gòu)和史無前例的性價(jià)比,火爆出圈:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,因此**深度求索DeepSeek被稱為“大模型界的拼多多”,**從而引發(fā)了字節(jié)、阿里、百度等大廠的大模型價(jià)格大戰(zhàn),不約而同地調(diào)整價(jià)格。

DeepSeek提出的MLA(多頭潛在注意力機(jī)制)架構(gòu)和DeepSeekMoESparse結(jié)構(gòu),大幅降低了模型的計(jì)算量和顯存占用,從而降低了推理成本。

在轟炸AI圈之前,深度求索DeepSeek背后的操盤手梁文鋒是金融江湖成名已久的高手。他成立的幻方量化,是國內(nèi)量化私募“四巨頭”之一。

低調(diào)的梁文鋒個(gè)80后,出生在廣東的一個(gè)五線城市,父親是一名小學(xué)老師。他畢業(yè)于浙江大學(xué),主修軟件工程,人工智能方向。有同事評(píng)價(jià)梁文鋒:**完全不像一個(gè)老板,而更像一個(gè)極客。**因?yàn)樽鳛槔习?,他本人每天都在寫代碼、跑代碼,學(xué)習(xí)能力驚人。

從公開的工作經(jīng)歷和職業(yè)生涯來看,梁文鋒從2008年開始致力于量化對(duì)沖領(lǐng)域的研究,2015年創(chuàng)立幻方量化,開始在量化投資領(lǐng)域嶄露頭角。

2016年,幻方量化首次上線運(yùn)行AI策略。2023年7月,梁文鋒創(chuàng)立深度求索DeepSeek,專注于AI大模型的研究和開發(fā),公司就在杭州。

早在2019年,幻方和它背后的資金,就開始大手筆投入深度學(xué)習(xí)訓(xùn)練平臺(tái),到了2021年幻方量化對(duì)超算集群系統(tǒng)的投入增加到10億元,并且搭載了超1萬張英偉達(dá)A100顯卡。

所以有人開玩笑,中國持有高性能GPU最多的機(jī)構(gòu)不是人工智能公司,而是幻方。

梁文鋒曾在《西蒙斯傳》的序言中寫道,“和很多新技術(shù)一樣,量化投資剛出現(xiàn)的時(shí)候也是被嘲笑的對(duì)象,沒有人相信計(jì)算機(jī)可以像人類一樣進(jìn)行投資。”

傳記的主角西蒙斯,是數(shù)學(xué)家、物理學(xué)家、密碼學(xué)家,創(chuàng)立了文藝復(fù)興科技公司,用技術(shù)讓投資業(yè)績(jī)遠(yuǎn)超巴菲特等人,被譽(yù)為“量化投資之父”。

這么看梁文鋒的職業(yè)生涯多有致敬前輩的意思。

03并不是誰燒錢多就理所應(yīng)當(dāng)?shù)内A得一切

除了將AI用于投資,梁文鋒一直對(duì)AGI和人工智能浪潮有深入的思考。

他認(rèn)為,無論是API還是AI,都應(yīng)該是普惠的,人人可以用得起的。他強(qiáng)調(diào)**技術(shù)應(yīng)該服務(wù)于大眾,而不是僅僅為了商業(yè)利益。**這種理念體現(xiàn)在DeepSeek的定價(jià)策略上,他們通過降低大模型的API價(jià)格,推動(dòng)了整個(gè)行業(yè)的價(jià)格戰(zhàn),使得更多人能夠負(fù)擔(dān)得起AI技術(shù)。

但和其他競(jìng)爭(zhēng)對(duì)手不一樣,深度求索并沒有用“燒錢”的方式來競(jìng)爭(zhēng)?!拔覀兊脑瓌t是不貼錢,也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤(rùn)。”梁文鋒說。

OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark曾這樣評(píng)價(jià)深度求索DeepSeek:“雇傭了一批高深莫測(cè)的奇才”,還認(rèn)為中國制造的大模型,“將和無人機(jī)、電動(dòng)汽車一樣,成為不容忽視的力量。”

不過在一次采訪中,梁文鋒曾透露,DeepSeek并沒有什么高深莫測(cè)的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。

“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人?!?/p>

他曾在訪談中提到,過去30多年的IT浪潮,中國基本上沒有參與到真正的技術(shù)創(chuàng)新,扮演的是追隨者的角色,“隨著經(jīng)濟(jì)的發(fā)展,中國也應(yīng)該逐步成為技術(shù)創(chuàng)新的主要貢獻(xiàn)者,而不是一直依賴別人的成果?!?/strong>

現(xiàn)在,V3的橫空出世至少讓整個(gè)AI圈看到一種可能,即創(chuàng)業(yè)公司可以不必用比拼資源的方式和OpenAI競(jìng)爭(zhēng)。雖然訓(xùn)練大模型依然需要很多很多的顯卡集群,但并不是誰燒錢多就理所應(yīng)當(dāng)?shù)刳A得一切。

甚至有網(wǎng)友戲稱:“想快進(jìn)到英偉達(dá)泡沫破裂的時(shí)刻。”

(來源:都市快報(bào))