亚洲综合一区二区,国产一级婬片AA免费

一個(gè)來自中國的開源模型，讓整個(gè)AI圈再次驚呼“來自東方的神秘力量”。

近日，國內(nèi)知名大模型創(chuàng)業(yè)公司“深度求索”通過官方公眾號(hào)宣布上線并同步開源 DeepSeek-V3模型，并公布了長(zhǎng)達(dá)53頁的訓(xùn)練和技術(shù)細(xì)節(jié)。

和許多報(bào)告語焉不詳相比，這份報(bào)告做到了真正的開源。不僅透露得到大幅升級(jí)的V3模型是在一個(gè)“難以想象”的預(yù)算下訓(xùn)練完成的：整個(gè)訓(xùn)練僅花費(fèi)了557.6萬美元，在2048xH800集群上運(yùn)行55天完成，還很坦誠地公布了技術(shù)細(xì)節(jié)。

01真正的花小錢辦大事

這筆費(fèi)用是什么概念呢？Anthropic CEO Dario Amodei曾透露，GPT-4o這樣的模型訓(xùn)練成本約為1億美元。

換句話說，與 Llma、GPT 或 Claude 這些全球知名大模型相比，DeepSeek-V3的這個(gè)成本幾乎可以忽略不計(jì)。

成本低不代表效果差，DeepSeek羅列了若干個(gè)指標(biāo)：

百科知識(shí)：DeepSeek-V3在知識(shí)類任務(wù)上的水平相比前代 DeepSeek-V2.5顯著提升，接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。

長(zhǎng)文本：在長(zhǎng)文本測(cè)評(píng)中，DROP、FRAMES和 LongBench v2上，DeepSeek-V3平均表現(xiàn)超越其他模型。

代碼：DeepSeek-V3在算法類代碼場(chǎng)景（Codeforces），遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非o1類模型；并在工程類代碼場(chǎng)景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。

數(shù)學(xué)：在美國數(shù)學(xué)競(jìng)賽（AIME 2024, MATH）上，DeepSeek-V3得分為90.2%，而Claude-3.5-Sonnet為 78.3%，GPT-4o為 74.6%。

中文能力：DeepSeek-V3與Qwen2.5-72B在教育類測(cè)評(píng)C-Eval和代詞消歧等評(píng)測(cè)集上表現(xiàn)相近，但在事實(shí)知識(shí) C-SimpleQA上更為領(lǐng)先。

簡(jiǎn)單說，從技術(shù)報(bào)告公布的性能指標(biāo)上來看，這個(gè)開源MoE模型，已經(jīng)在性能上對(duì)齊甚至在一些方面顯著超越了海外領(lǐng)軍的閉源模型。

對(duì)此，OpenAI創(chuàng)始成員Karpathy點(diǎn)評(píng)：DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。它看起來比Llama 3 405B更強(qiáng)，訓(xùn)練消耗的算力卻僅為后者的1/11。

Meta科學(xué)家田淵棟感慨：這是非常偉大的工作。

02創(chuàng)始人畢業(yè)于浙大，曾是量化基金大佬

說起國產(chǎn)大模型，很多人聽說過“五虎”和“四小龍”，但很少有人聽說過深度求索DeepSeek。因?yàn)樗麄兪俏ㄒ灰患覜]有做2C應(yīng)用的公司，選擇了開源路線，至今沒有融過資。

這也不是深度求索第一次展現(xiàn)神奇的力量。在硅谷，深度求索DeepSeek很早被稱作“來自東方的神秘力量”。

今年5月，深度求索DeepSeek發(fā)布發(fā)DeepSeekV2，因?yàn)閯?chuàng)新的模型架構(gòu)和史無前例的性價(jià)比，火爆出圈：推理成本被降到每百萬token僅 1塊錢，約等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，因此**深度求索DeepSeek被稱為“大模型界的拼多多”，**從而引發(fā)了字節(jié)、阿里、百度等大廠的大模型價(jià)格大戰(zhàn)，不約而同地調(diào)整價(jià)格。

DeepSeek提出的MLA（多頭潛在注意力機(jī)制）架構(gòu)和DeepSeekMoESparse結(jié)構(gòu)，大幅降低了模型的計(jì)算量和顯存占用，從而降低了推理成本。

在轟炸AI圈之前，深度求索DeepSeek背后的操盤手梁文鋒是金融江湖成名已久的高手。他成立的幻方量化，是國內(nèi)量化私募“四巨頭”之一。

低調(diào)的梁文鋒個(gè)80后，出生在廣東的一個(gè)五線城市，父親是一名小學(xué)老師。他畢業(yè)于浙江大學(xué)，主修軟件工程，人工智能方向。有同事評(píng)價(jià)梁文鋒：**完全不像一個(gè)老板，而更像一個(gè)極客。**因?yàn)樽鳛槔习?，他本人每天都在寫代碼、跑代碼，學(xué)習(xí)能力驚人。

從公開的工作經(jīng)歷和職業(yè)生涯來看，梁文鋒從2008年開始致力于量化對(duì)沖領(lǐng)域的研究，2015年創(chuàng)立幻方量化，開始在量化投資領(lǐng)域嶄露頭角。

2016年，幻方量化首次上線運(yùn)行AI策略。2023年7月，梁文鋒創(chuàng)立深度求索DeepSeek，專注于AI大模型的研究和開發(fā)，公司就在杭州。

早在2019年，幻方和它背后的資金，就開始大手筆投入深度學(xué)習(xí)訓(xùn)練平臺(tái)，到了2021年幻方量化對(duì)超算集群系統(tǒng)的投入增加到10億元，并且搭載了超1萬張英偉達(dá)A100顯卡。

所以有人開玩笑，中國持有高性能GPU最多的機(jī)構(gòu)不是人工智能公司，而是幻方。

梁文鋒曾在《西蒙斯傳》的序言中寫道，“和很多新技術(shù)一樣，量化投資剛出現(xiàn)的時(shí)候也是被嘲笑的對(duì)象，沒有人相信計(jì)算機(jī)可以像人類一樣進(jìn)行投資。”

傳記的主角西蒙斯，是數(shù)學(xué)家、物理學(xué)家、密碼學(xué)家，創(chuàng)立了文藝復(fù)興科技公司，用技術(shù)讓投資業(yè)績(jī)遠(yuǎn)超巴菲特等人，被譽(yù)為“量化投資之父”。

這么看梁文鋒的職業(yè)生涯多有致敬前輩的意思。

03并不是誰燒錢多就理所應(yīng)當(dāng)?shù)内A得一切

除了將AI用于投資，梁文鋒一直對(duì)AGI和人工智能浪潮有深入的思考。

他認(rèn)為，無論是API還是AI，都應(yīng)該是普惠的，人人可以用得起的。他強(qiáng)調(diào)**技術(shù)應(yīng)該服務(wù)于大眾，而不是僅僅為了商業(yè)利益。**這種理念體現(xiàn)在DeepSeek的定價(jià)策略上，他們通過降低大模型的API價(jià)格，推動(dòng)了整個(gè)行業(yè)的價(jià)格戰(zhàn)，使得更多人能夠負(fù)擔(dān)得起AI技術(shù)。

但和其他競(jìng)爭(zhēng)對(duì)手不一樣，深度求索并沒有用“燒錢”的方式來競(jìng)爭(zhēng)?！拔覀兊脑瓌t是不貼錢，也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤(rùn)。”梁文鋒說。

OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark曾這樣評(píng)價(jià)深度求索DeepSeek：“雇傭了一批高深莫測(cè)的奇才”，還認(rèn)為中國制造的大模型，“將和無人機(jī)、電動(dòng)汽車一樣，成為不容忽視的力量。”

不過在一次采訪中，梁文鋒曾透露，DeepSeek并沒有什么高深莫測(cè)的奇才，都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生，還有一些畢業(yè)才幾年的年輕人。

“V2模型沒有海外回來的人，都是本土的。前50名頂尖人才可能不在中國，但也許我們能自己打造這樣的人?！?/p>

他曾在訪談中提到，過去30多年的IT浪潮，中國基本上沒有參與到真正的技術(shù)創(chuàng)新，扮演的是追隨者的角色，“隨著經(jīng)濟(jì)的發(fā)展，中國也應(yīng)該逐步成為技術(shù)創(chuàng)新的主要貢獻(xiàn)者，而不是一直依賴別人的成果?！?/strong>

現(xiàn)在，V3的橫空出世至少讓整個(gè)AI圈看到一種可能，即創(chuàng)業(yè)公司可以不必用比拼資源的方式和OpenAI競(jìng)爭(zhēng)。雖然訓(xùn)練大模型依然需要很多很多的顯卡集群，但并不是誰燒錢多就理所應(yīng)當(dāng)?shù)刳A得一切。

甚至有網(wǎng)友戲稱：“想快進(jìn)到英偉達(dá)泡沫破裂的時(shí)刻。”

（來源：都市快報(bào)）

來自浙江！“深度求索”DeepSeek-V3模型震驚全球AI圈

來自浙江！“深度求索”DeepSeek-V3模型震驚全球AI圈