近日,DeepSeek的橫空出世,在全球科技領(lǐng)域激起千層浪,引發(fā)了從學(xué)界到業(yè)界的廣泛熱議與深度思考。中國(guó)科協(xié)會(huì)刊《科技導(dǎo)報(bào)》2025年第3期刊發(fā)中國(guó)計(jì)算機(jī)學(xué)會(huì)原理事長(zhǎng)李國(guó)杰院士的《DeepSeek引發(fā)的AI發(fā)展路徑思考》一文,深入剖析了DeepSeek背后所蘊(yùn)含的AI發(fā)展路徑相關(guān)問題,見解深入、專業(yè)、富于啟發(fā),特此全文呈現(xiàn)給廣大讀者。
李國(guó)杰:計(jì)算機(jī)專家,中國(guó)工程院院士、發(fā)展中國(guó)家科學(xué)院(TWAS)院士,中國(guó)科學(xué)院計(jì)算技術(shù)研究所首席科學(xué)家。研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)、并行算法、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、信息技術(shù)發(fā)展戰(zhàn)略等。
DeepSeek引發(fā)的AI發(fā)展路徑思考
李國(guó)杰
為什么DeepSeek會(huì)引起
全球性的科技震撼?
DeepSeek的橫空出世是人工智能(AI)發(fā)展史上新的標(biāo)志性事件。7天之內(nèi)DeepSeek的用戶增長(zhǎng)超過1億,創(chuàng)造了用戶增長(zhǎng)速度新的世界紀(jì)錄。與此同時(shí),芯片巨頭公司英偉達(dá)(NVIDIA)的股價(jià)單日暴跌17%,市值縮水5890億美元,創(chuàng)下美國(guó)上市公司單日最大損失紀(jì)錄。DeepSeek的崛起,打破了“高算力和高投入是發(fā)展人工智能唯一途徑”和“集成電路制程優(yōu)勢(shì)=人工智能技術(shù)霸權(quán)”的迷信,引領(lǐng)人工智能行業(yè)進(jìn)入以算法和模型架構(gòu)優(yōu)化為主,同時(shí)高度重視數(shù)據(jù)質(zhì)量與規(guī)模、理性提高算力的新時(shí)期。同時(shí),DeepSeek的崛起也標(biāo)志著中國(guó)科技公司從“追趕者”變?yōu)椤耙?guī)則改寫者”,在全球最關(guān)注的人工智能領(lǐng)域,以顛覆性的創(chuàng)新開始挑戰(zhàn)西方在AI領(lǐng)域的霸權(quán)。
全球人工智能龍頭企業(yè)紛紛擁抱DeepSeek,凸顯其不可抗拒的影響力。微軟最早宣布將DeepSeek R1 模型添加到其云平臺(tái)Azure AI Foundry,開發(fā)者可用于構(gòu)建基于云的應(yīng)用程序和服務(wù)。亞馬遜云科技(AWS)、英偉達(dá)、超威半導(dǎo)體(AMD)等公司相繼宣布在其AI 服務(wù)平臺(tái)上部署DeepSeek V3和R1模型。不管某些國(guó)家政府如何抵制,少數(shù)媒體如何惡意中傷,上億用戶和眾多大公司根據(jù)DeepSeek的性價(jià)比和親身體驗(yàn)做出選擇,主動(dòng)融入DeepSeek生態(tài)。DeepSeek推出的高效率、低成本的推理模型和開源商業(yè)模式,將引領(lǐng)人工智能行業(yè)新潮流。
DeepSeek的V3和R1模型廣受歡迎,首先是因?yàn)槠湓谀P退惴ê拖到y(tǒng)軟件層次都有重大創(chuàng)新。DeepSeek-V3的模型參數(shù)量高達(dá)6710億,但由于采用了自主研發(fā)的混合專家模型(MoE)架構(gòu),每一層有256個(gè)細(xì)分領(lǐng)域的路由專家和1個(gè)共享專家,每次調(diào)用只激活約370億個(gè)參數(shù),顯著降低了訓(xùn)練計(jì)算成本。DeepSeek改進(jìn)的多頭潛在注意力機(jī)制(MLA),減少了鍵值緩存開銷,把顯存占用降到了其他大模型的5%~13%,極大提升了模型運(yùn)行效率。DeepSeek-R1 模型摒棄了傳統(tǒng)的監(jiān)督微調(diào)(SFT),開創(chuàng)性地提出群組相對(duì)策略優(yōu)化(GRPO),直接通過強(qiáng)化學(xué)習(xí)從基礎(chǔ)模型中激發(fā)推理能力,大幅降低了數(shù)據(jù)標(biāo)注成本,簡(jiǎn)化了訓(xùn)練流程。DeepSeek揭示了一個(gè)真相,即推理模型的開發(fā)比想象中更為簡(jiǎn)單,各行各業(yè)都可以做。DeepSeek的這些發(fā)明并非首次提出來的原始創(chuàng)新,但DeepSeek通過艱苦的努力把技術(shù)做到極致,在前人公開成果基礎(chǔ)上,登上新的技術(shù)高峰。
第3波人工智能興起后,美國(guó)政府、AI龍頭企業(yè)和投資界形成一個(gè)基本信念:發(fā)展人工智能需要高算力,而目前實(shí)現(xiàn)人工智能計(jì)算性能最高的芯片就是英偉達(dá)的GPU。因此,美國(guó)認(rèn)為只要控制GPU的銷售,就能在人工智能領(lǐng)域獨(dú)霸全球。特朗普在就職典禮第2天就簽署法案,啟動(dòng)星際之門計(jì)劃,投資5000億美元,打造人工智能的基礎(chǔ)設(shè)施??梢?,美國(guó)政府是把夯實(shí)人工智能的算力基礎(chǔ)當(dāng)成維持其全球領(lǐng)導(dǎo)地位的關(guān)鍵。以英偉達(dá)為代表的美國(guó)AI龍頭企業(yè),有真老虎的一面,也有紙老虎的另一面。初生牛犢不怕虎的年輕的中國(guó)科技工作者,在紙老虎上戳了一個(gè)洞,讓世人看清了原來這只老虎也沒有那么可怕。DeepSeek震撼全球就是揭示真相的威力。“規(guī)模法則(Scaling Law)”
是否已遇天花板?
2020年1月,Open AI 發(fā)表論文《神經(jīng)語言模型的規(guī)模法則》(《Scaling Laws for Neural Language Models》),提出規(guī)模法則:“通過增加模型規(guī)模、數(shù)據(jù)量和計(jì)算資源,可以顯著提升模型性能”。在AI領(lǐng)域,規(guī)模法則被一些人認(rèn)為是“公理”,俗稱“大力出奇跡”,Open AI等龍頭企業(yè)和美國(guó)的AI投資界把它當(dāng)成制勝法寶。
但規(guī)模法則不是像牛頓定律一樣經(jīng)過無數(shù)次驗(yàn)證的科學(xué)定律,而是Open AI等公司近幾年研制大模型的經(jīng)驗(yàn)歸納。從科學(xué)研究的角度看,屬于一種對(duì)技術(shù)發(fā)展趨勢(shì)的猜想;從投資的角度看,屬于對(duì)某種技術(shù)路線的押注。人工智能是對(duì)未來技術(shù)的探索。技術(shù)路線存在多種可能,人工智能本身也存在多元化的目標(biāo),探索的道路上有很多高山需要去攀登,攀登一座高山的路徑也不止一條。把一種信仰或猜想當(dāng)成科學(xué)公理,不是科學(xué)的態(tài)度。近幾年大模型訓(xùn)練的實(shí)際效果表明,要獲得大模型性能的線性增長(zhǎng),必須在模型規(guī)模、數(shù)據(jù)量和算力投入上高指數(shù)性的增長(zhǎng),幾個(gè)月就翻一倍。從GPT-3 到GPT-4,參數(shù)規(guī)模增加約10倍,用于訓(xùn)練的GPU數(shù)量增加了近24倍,總計(jì)算量增加了近70倍。任何投入的高指數(shù)性增加都不可能是長(zhǎng)久的,民航大飛機(jī)的速度提高、集成電路的主頻提高等都是到適當(dāng)?shù)臅r(shí)候就停止了,大模型也應(yīng)該不會(huì)破例。
鼓吹“Scaling Law”的人,常以強(qiáng)化學(xué)習(xí)之父理查德·薩頓(Richard S. Sutton)的文章“苦澀的教訓(xùn)”作為追求高算力的依據(jù):“研究人員曾一次又一次試圖通過精巧的工程設(shè)計(jì)來提升性能,但最終都敗給了簡(jiǎn)單粗暴的‘加大算力’方案,歷史證明,通用方法總是在AI領(lǐng)域勝出?!钡?,薩頓本人這兩年對(duì)“Scaling Law”做了深刻反思。他指出,雖然Scaling Law在提升模型性能方面確實(shí)有效,但它并不是解決所有問題的萬能鑰匙。AI系統(tǒng)不僅需要具備強(qiáng)大的計(jì)算能力,還需要具備持續(xù)學(xué)習(xí)、適應(yīng)環(huán)境、理解復(fù)雜情境等能力,這些能力往往難以通過簡(jiǎn)單地增加算力來實(shí)現(xiàn)。
但現(xiàn)在就說規(guī)模法則已經(jīng)走到盡頭,也沒有根據(jù)。與人腦的神經(jīng)連接復(fù)雜性相比,現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)至少還有上百倍的差距。繼續(xù)擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模和增加訓(xùn)練的數(shù)據(jù)量,是否還能取得與投入相稱的回報(bào),要看今后的實(shí)際效果。但GPT-5遲遲不能問世,可能說明規(guī)模擴(kuò)張的效果已經(jīng)不太明顯。圖靈獎(jiǎng)得主楊立昆(Yann LeCun)和OpenAI 前首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)等直言,規(guī)模法則已觸及天花板。
DeepSeek的出現(xiàn),逼迫AI界嚴(yán)肅地思考這一技術(shù)發(fā)展路線問題:是繼續(xù)投入巨資追求高算力,還是另辟蹊徑,在算法優(yōu)化上下更多功夫?DeepSeek的問世標(biāo)志著人工智能訓(xùn)練模式從“大力出奇跡”的外延式發(fā)展階段,轉(zhuǎn)向集約化系統(tǒng)優(yōu)化的內(nèi)涵式發(fā)展階段。DeepSeek的成功并沒有否定算力在人工智能發(fā)展中的重要作用。實(shí)際上,由于用于推理的設(shè)備比訓(xùn)練設(shè)備多得多,推理所需要的算力將來會(huì)成為主要需求。但綠色發(fā)展是必須遵循的大原則,降低人工智能所需要的能耗一定是科技界的重要目標(biāo)。發(fā)展“通用人工智能”(AGI)
應(yīng)選擇什么道路?
“通用人工智能”是一個(gè)模糊的沒有形成廣泛共識(shí)的術(shù)語。Open AI公司追求的通用人工智能(artificial general intelligence,AGI)是其中的一種,指的是AI在多個(gè)領(lǐng)域以人類水平處理復(fù)雜問題的能力。人工智能界有一個(gè)莫拉維克悖論:“復(fù)雜的問題是易解的,簡(jiǎn)單的問題反而是難解的”。從這個(gè)角度看,能解復(fù)雜問題的人工智能不一定就是通用人工智能。許多人認(rèn)為,能夠應(yīng)對(duì)設(shè)計(jì)者預(yù)料之外的情況,才叫“通用”。因此,人工智能學(xué)術(shù)界更關(guān)注智能系統(tǒng)持續(xù)學(xué)習(xí),自我改進(jìn)的能力。人工智能的通用性不僅表現(xiàn)在對(duì)語言的處理上,還包括像人一樣基于常識(shí)和日常經(jīng)驗(yàn)與外部客觀世界互動(dòng)的能力。
人工智能是對(duì)人類智能某一個(gè)方面的再現(xiàn)和超越。在科學(xué)技術(shù)領(lǐng)域,所謂“通用”一定是相對(duì)的,有一定的條件或范圍。我們要認(rèn)識(shí)人工智能的局限性,不能盲目追求能夠解決所有問題的人工智能。重點(diǎn)還是要根據(jù)實(shí)際需求,將相對(duì)通用的人工智能技術(shù)落地到各個(gè)行業(yè),讓一定范圍內(nèi)的人工智能技術(shù)見到實(shí)效。實(shí)現(xiàn)通用智能是一個(gè)漸進(jìn)過程,不會(huì)因某項(xiàng)技術(shù)的發(fā)明就突然到來。人工智能的通用性已經(jīng)比前兩波有明顯的提高,但在某些應(yīng)用中通過圖靈測(cè)試只是階段性成果,目前的技術(shù)離真正的通用智能還有較大差距。 究竟如何才能實(shí)現(xiàn)通用人工智能,現(xiàn)在還沒有結(jié)論。DeepSeek和Open AI都以發(fā)展“通用人工智能”為目標(biāo),但走的路徑不一樣。Open AI公司相信Scaling Law正在盡量擴(kuò)大模型規(guī)模,希望先做出通用的基礎(chǔ)模型,再“蒸餾”出各行業(yè)可使用的行業(yè)垂直模型,走的是“由通到?!钡穆?。除降低通用大模型的訓(xùn)練成本外,如何在保持泛化能力的同時(shí),提高在特定領(lǐng)域或任務(wù)上的性能和效率,仍是需要解決的問題。與之相反,DeepSeek 走的是“由專到通”的人工智能發(fā)展之路,試圖在模型算法和工程優(yōu)化方面進(jìn)行系統(tǒng)級(jí)創(chuàng)新,為在受限資源下探索通用人工智能開辟新的道路。所謂“混合專家模型”就是集小智為大智,集專智為通智?!靶《钡哪P蛯⑷斯ぶ悄艿闹攸c(diǎn)發(fā)展方向從面向企業(yè)的to B引向更貼近消費(fèi)者的to C,從廣泛覆蓋的“橫向通吃”引向深入鉆研的“縱向做精”,讓更多的中小企業(yè)參與,可能會(huì)創(chuàng)造更大市場(chǎng)空間。但整合多個(gè)專用模型為通用模型也需要解決諸多技術(shù)和工程問題,如模型間的接口、數(shù)據(jù)格式的統(tǒng)一、訓(xùn)練時(shí)的負(fù)載平衡等。
通用與專用的競(jìng)爭(zhēng)是技術(shù)發(fā)展的普遍現(xiàn)象,集成電路領(lǐng)域就有“通用”與“專用”10年交替演化的“牧本周期”?!坝赏ǖ綄!焙汀坝蓪5酵ā钡娜斯ぶ悄?,究竟哪條路能走通,還要等歷史下結(jié)論。也許最后的結(jié)果是通專融合,專用多模型的“垂直做精”與通用大模型的“橫向擴(kuò)展”形成互補(bǔ),共同構(gòu)建起智能時(shí)代的產(chǎn)業(yè)新生態(tài)。發(fā)展人工智能應(yīng)該追求高算力
還是高算效(高能效)?
科技界公認(rèn)圖靈是人工智能的奠基人,因?yàn)樗岢隽丝梢杂糜?jì)算來模擬人類智能的科學(xué)假說。他的論文暗示,計(jì)算等價(jià)于智能。迄今為止,人工智能取得的成果幾乎都離不開計(jì)算,大模型的出現(xiàn)將算力的作用抬高到前所未有的高度。我們需要認(rèn)真地想一想,高算力是不是人工智能的本質(zhì)要求?發(fā)展人工智能的初始動(dòng)機(jī)是模擬人腦,自然界進(jìn)化了數(shù)百萬年的人腦是一個(gè)計(jì)算效率和能效極高的計(jì)算裝置,功耗只有20W左右。人腦的極低功耗是因?yàn)椴扇×朔植际降哪M計(jì)算。目前計(jì)算機(jī)的高能耗是因?yàn)椴捎密浻布蛛x的數(shù)字計(jì)算。深度學(xué)習(xí)的奠基人辛頓(Hinton)教授最近提出“凡人計(jì)算”的新研究方向,采用與人腦一樣的存算一體模擬計(jì)算方式,顛覆了硬件與軟件分離的傳統(tǒng)計(jì)算模式。這類研究追求的是計(jì)算的高算效和高能效,從長(zhǎng)遠(yuǎn)來講,是發(fā)展人工智能的正確方向。
DeepSeek發(fā)布以后,斯坦福大學(xué)華裔科學(xué)家李飛飛指導(dǎo)的團(tuán)隊(duì),以阿里通義千問(Qwen)模型為基礎(chǔ),通過“蒸餾”谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,并結(jié)合SFT技術(shù),使用16個(gè)英偉達(dá)H100 GPU進(jìn)行了26 min的訓(xùn)練,以不到50美元的云計(jì)算費(fèi)用成功訓(xùn)練出s1模型,其性能超過了Open AI的o1?pre?view 模型。這種低訓(xùn)練成本的模型的通用性可能不如大公司的模型,但令人吃驚的低成本可在某些應(yīng)用上做到與高端模型相媲美的性能,顯示出人工智能的低成本化還有巨大的提升空間。
低成本是技術(shù)普及的基本要求,蒸汽機(jī)、電力和計(jì)算機(jī)的普及都是其成本降低到大眾可以接受時(shí)才做到的,人工智能肯定也會(huì)走這條路。目前,盲目地追求高算力導(dǎo)致人工智能的成本居高不下,阻礙了人工智能技術(shù)的大規(guī)模普及。DeepSeek不僅是技術(shù)突破者,更是規(guī)則重構(gòu)者,開辟了一條低成本發(fā)展人工智能的可行之路。DeepSeek的崛起說明AI不再局限于簡(jiǎn)單堆砌算力,而是進(jìn)入了以追求高算效和高能效為主的新階段。“開源”為什么有這么大的威力?
過去幾年,開源大模型的性能始終與龍頭企業(yè)的閉源大模型有一代以上的差距,這一次DeepSeek的性能追上了閉源模型,大大增強(qiáng)了開源社區(qū)的信心。圖靈獎(jiǎng)得主楊立昆認(rèn)為,“對(duì)DeepSeek崛起的正確解讀,應(yīng)是開源模型正在超越閉源模型”。這一評(píng)價(jià)十分中肯,因?yàn)楦淖傾I發(fā)展模式比單項(xiàng)技術(shù)的突破更重要。
雖然OpenAI為代表的生成式人工智能紅紅火火,但多數(shù)企業(yè)不敢將本公司的數(shù)據(jù)交給私有AI平臺(tái)生成自己的垂直模型,因?yàn)楹ε绿峤坏臄?shù)據(jù)泄露自己的技術(shù)機(jī)密。人工智能之所以在各個(gè)行業(yè)難以落地,這可能是一個(gè)根本性的原因。DeepSeek的徹底開源模式破解了這一難題,現(xiàn)在全世界的企業(yè)和用戶都可以將DeepSeek提供的小而精的模型下載到本地,即使斷網(wǎng)也可以“蒸餾”出高效率的垂直模型,真正實(shí)現(xiàn)了技術(shù)的民主化。
長(zhǎng)期以來,美國(guó)的AI龍頭公司夸大開源AI的安全風(fēng)險(xiǎn),力圖通過監(jiān)管抑制開源AI。事實(shí)上,開源模型對(duì)于全球AI供應(yīng)鏈至關(guān)重要,發(fā)展中國(guó)家尤其需要開源AI技術(shù)。若美國(guó)繼續(xù)在這一領(lǐng)域設(shè)置障礙,中國(guó)就有望在開源AI全球供應(yīng)鏈中占據(jù)核心地位,從而使更多企業(yè)轉(zhuǎn)向中國(guó)企業(yè)而非美國(guó)企業(yè)的技術(shù)方案。
真正的AI競(jìng)爭(zhēng),不僅僅是技術(shù)和模型的競(jìng)爭(zhēng),更是生態(tài)系統(tǒng)、商業(yè)模式,以及價(jià)值觀的競(jìng)爭(zhēng)。開源模型讓每個(gè)開發(fā)者都能輕松調(diào)用強(qiáng)大AI工具,不再受大公司的約束,AI的進(jìn)化速度將會(huì)明顯提升。DeepSeek的開源戰(zhàn)略將向歷史證明:在這場(chǎng)AI競(jìng)賽中,誰擁抱開源,誰就能贏得未來。中國(guó)是否已具有在人工智能上
引領(lǐng)全球的實(shí)力?
有人說ChatGPT是0到1的突破,而DeepSeek只是1到N的擴(kuò)展,這種看法不符合人工智能發(fā)展的歷史軌跡。人工智能是一個(gè)沒有嚴(yán)格定義的研究領(lǐng)域,沒有智能和不智能的0到1界限,只有智能化水平不斷提高的發(fā)展過程。長(zhǎng)期以來,中國(guó)人工智能領(lǐng)域的高技術(shù)企業(yè)大多重視應(yīng)用創(chuàng)新和商業(yè)模式創(chuàng)新,追求的目標(biāo)是快速盈利,很少參與核心技術(shù)創(chuàng)新。隨著經(jīng)濟(jì)的發(fā)展和技術(shù)的積累,中國(guó)的企業(yè)已經(jīng)開始具備原創(chuàng)的能力。DeepSeek的一鳴驚人可能是一個(gè)分水嶺,標(biāo)志著中國(guó)AI產(chǎn)業(yè)開始從“技術(shù)跟跑”向“技術(shù)并跑和領(lǐng)跑”邁進(jìn)。
應(yīng)當(dāng)承認(rèn),中國(guó)在人工智能的基礎(chǔ)研究和核心技術(shù)上與美國(guó)仍然有差距。盡管在人工智能領(lǐng)域,中國(guó)的論文發(fā)表總數(shù)和專利授權(quán)數(shù)量超過美國(guó),但是引用最多的源頭性論文大多出自美國(guó),美國(guó)也是頂尖AI模型的主要來源國(guó)。斯坦福大學(xué)發(fā)布的《2024年人工智能指數(shù)報(bào)告》 顯示,2023年,美國(guó)有61個(gè)較著名的AI模型,中國(guó)只有15個(gè)。近幾年中國(guó)在AI領(lǐng)域快速追趕,進(jìn)步速度喜人。根據(jù)《日本經(jīng)濟(jì)新聞》對(duì)2020—2024年神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)等3個(gè)機(jī)器學(xué)習(xí)頂級(jí)會(huì)議的統(tǒng)計(jì),在3萬多篇發(fā)表的論文中,中國(guó)作者有8491人(美國(guó)14766人),過去4年中國(guó)作者增長(zhǎng)了8倍。
人工智能不同于資本密集型和經(jīng)驗(yàn)積累型的集成電路產(chǎn)業(yè),不僅要“燒錢”,更要“燒腦”,本質(zhì)上是拼人的智力的新興產(chǎn)業(yè)。因此人工智能產(chǎn)業(yè)具有明顯的不對(duì)稱性,一個(gè)具有100多個(gè)聰明頭腦的小企業(yè)就可以挑戰(zhàn)市值上萬億的龍頭企業(yè)。DeepSeek只是中國(guó)具有潛力的人工智能企業(yè)之一。近日,《麻省理工科技評(píng)論》刊發(fā)了一篇題為《關(guān)注DeepSeek之外的4家中國(guó)人工智能初創(chuàng)公司》的報(bào)道,指出階躍星辰(Stepfun)、面壁智能(Model Best)、智譜AI(Zhipu)、無問芯穹(Infinigence AI)4家企業(yè)同樣展現(xiàn)出不遜于DeepSeek的技術(shù)實(shí)力與全球競(jìng)爭(zhēng)力。DeepSeek脫穎而出以后,人們盛傳“ 杭州6小龍”的故事(深度求索、宇樹科技、游戲科學(xué)、云深處、群核科技、強(qiáng)腦科技6家初創(chuàng)AI公司)。迄今為止,中國(guó)共有52家人工智能領(lǐng)域的獨(dú)角獸企業(yè),約占全球人工智能獨(dú)角獸企業(yè)的18%。這說明在AI領(lǐng)域,中國(guó)已經(jīng)有一批創(chuàng)新型小企業(yè)進(jìn)入世界前列,開始展現(xiàn)引領(lǐng)全球的實(shí)力。
DeepSeek的成功說明,在人工智能的發(fā)展中,算法優(yōu)化和系統(tǒng)級(jí)工程優(yōu)化不可或缺,優(yōu)秀工程師發(fā)揮著至關(guān)重要作用。良好的工程教育體系,龐大的工程師隊(duì)伍是中國(guó)的一大優(yōu)勢(shì),我們要充分發(fā)揮這一優(yōu)勢(shì)。進(jìn)入并跑狀態(tài)以后,就不要過于在意與美國(guó)相差幾個(gè)月,可以你做你的、我做我的,比誰能發(fā)現(xiàn)正確的研究方向。年輕一代正在成為科研的主力,我們要有信心在人工智能的研究和應(yīng)用上走在美國(guó)前面。中國(guó)實(shí)現(xiàn)人工智能自立自強(qiáng)
要如何發(fā)力?
實(shí)現(xiàn)人工智能自立自強(qiáng),不僅要靠國(guó)家的頂層規(guī)劃和充分的資金支持,更要做好人才的使用培養(yǎng)和產(chǎn)業(yè)生態(tài)的構(gòu)建,克服重重困難的前提是要有自信心。DeepSeek成功的前提是其創(chuàng)始人梁文鋒的自信。他在接受采訪時(shí)說:“中國(guó)的AI不能永遠(yuǎn)做跟隨者,必須有人走在前沿。OpenAI并非神一般的存在,他們不可能永遠(yuǎn)領(lǐng)先?!?0后、90后的中國(guó)年輕人已經(jīng)開始平視美西方國(guó)家,具有“敢為天下先”的勇氣和自信,他們是中國(guó)科技自立自強(qiáng)的希望。
DeepSeek的人才聘用模式打破了傳統(tǒng),梁文鋒選擇了一條與眾不同的用人策略。他拒絕經(jīng)驗(yàn)豐富的人才,而選擇初出茅廬的年輕人。招聘時(shí)工作經(jīng)驗(yàn)超過8年者,直接拒聘;超過5年,需要特別出色才能入選。DeepSeek團(tuán)隊(duì)成員幾乎全是國(guó)內(nèi)頂尖高校的應(yīng)屆畢業(yè)生或博士實(shí)習(xí)生。真正的創(chuàng)新往往來自那些沒有包袱的人,DeepSeek重用極致熱情、富有好奇心的年輕人,而不是習(xí)慣用經(jīng)驗(yàn)找答案的人,這種用人理念為公司帶來了令人驚奇的創(chuàng)新動(dòng)力,也對(duì)傳統(tǒng)的中國(guó)教育模式和人才聘用模式提出了警示。
要實(shí)現(xiàn)人工智能自立自強(qiáng),最困難的是構(gòu)建自主可控的產(chǎn)業(yè)生態(tài)。英偉達(dá)公司的“護(hù)城河”不是GPU芯片本身,而是統(tǒng)一計(jì)算設(shè)備架構(gòu)(compute unified device architecture,CUDA)軟件生態(tài)。DeepSeek沖擊了CUDA生態(tài),但沒有完全繞過CUDA,其生態(tài)壁壘仍然存在。從長(zhǎng)遠(yuǎn)來講,需要開發(fā)一套比CUDA更優(yōu)秀的自主可控的AI軟件工具系統(tǒng),重構(gòu)AI軟件生態(tài)。實(shí)現(xiàn)這個(gè)目標(biāo)需要周密的規(guī)劃和長(zhǎng)期努力,相關(guān)部門應(yīng)該下決心組織全國(guó)的開發(fā)力量,充分調(diào)動(dòng)上下游企業(yè)的積極性,完成這件大事。
資金投入不是決定AI成敗的唯一因素,但最近幾年中國(guó)投資市場(chǎng)規(guī)模急劇萎縮值得警醒。CB Insights數(shù)據(jù)顯示,2023年,美國(guó)的AI投資達(dá)到672億美元,是中國(guó)AI投資的8.7倍。這一年美國(guó)的AI投資實(shí)現(xiàn)了22.1%的增長(zhǎng),而中國(guó)AI私人投資下降了44.2%。其中,在生成式AI私人投資上,2023年美國(guó)總投資額達(dá)到224.6億美元,中國(guó)僅為6.5億美元。風(fēng)險(xiǎn)投資和私募基金對(duì)于支撐科創(chuàng)產(chǎn)業(yè)極為重要,他們?yōu)閯?chuàng)新起到了資金池和擔(dān)保的作用。中美科創(chuàng)市場(chǎng)曾經(jīng)并駕齊驅(qū),但到2023年,中國(guó)科創(chuàng)投資額僅相當(dāng)于美國(guó)的8%。盡管美國(guó)投資界追捧“大算力”,存在一定的泡沫,但正常的金融支持是發(fā)展AI的必要條件。政府和資本界要合力構(gòu)建一個(gè)健康的科創(chuàng)金融生態(tài),為創(chuàng)新提供必備的動(dòng)力,這樣才會(huì)有更多DeepSeek出現(xiàn)。
產(chǎn)業(yè)生態(tài)的形成也要靠市場(chǎng)牽引。國(guó)家要通過政策引導(dǎo),鼓勵(lì)在PC、手機(jī)和物端設(shè)備上推廣AI應(yīng)用,增強(qiáng)國(guó)產(chǎn)GPU、CPU和國(guó)產(chǎn)軟件的市場(chǎng)占有率。要高度重視芯片設(shè)計(jì)和大模型的開源戰(zhàn)略,爭(zhēng)取中國(guó)在全球人工智能的開源系統(tǒng)中起到主導(dǎo)作用。我們需要在有限算力條件下,通過算法和軟件的協(xié)同創(chuàng)新,充分發(fā)揮硬件的極致性能,挖掘所有可能的優(yōu)化空間。國(guó)內(nèi)的人工智能模型與美國(guó)的水平十分接近,我們要做好算力資源與人工智能平臺(tái)的優(yōu)化適配,力爭(zhēng)中國(guó)的人工智能科研和應(yīng)用走在世界前列。
(來源:科技導(dǎo)報(bào))