版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

寫在DeepSeek爆火之后:AI發(fā)展得如此之快,未來會越來越快嗎?

中國科普博覽
原創(chuàng)
中國科協(xié)、中科院攜手“互聯(lián)網(wǎng)+科普”平臺,深耕科普內(nèi)容創(chuàng)作
收藏

出品:科普中國

作者:王?。ㄖ袊茖W院計算技術(shù)研究所在讀博士)

監(jiān)制:中國科普博覽

編者按:為展現(xiàn)智能科技動態(tài),科普中國前沿科技項目推出“人工智能”系列文章,一窺人工智能前沿進展,回應(yīng)種種關(guān)切與好奇。讓我們共同探究,迎接智能時代。

最近,DeepSeek作為AI界一位“新頂流”,憑借強大的功能在社交媒體上引發(fā)熱議。有人說它是未來的生產(chǎn)力工具,有人好奇它能為生活帶來哪些改變,也有人擔心它會搶走自己的飯碗……

為了讓大家更加了解這個備受關(guān)注的智能幫手,我們邀請了中國科學院計算技術(shù)研究所在讀博士王琛,用10個問題全面解答關(guān)于DeepSeek的核心原理、使用技巧以及未來趨勢等疑問。無論是AI小白還是科技達人,這篇文章都能為你答疑解惑!讓我們一起看看,這個“智能幫手”能否成為我們生活中的真正伙伴吧!

DeepSeek在春節(jié)期間受到全球的關(guān)注,現(xiàn)在許多平臺都表示已經(jīng)接入DeepSeek大模型,它究竟是什么?

DeepSeek是一家位于杭州的人工智能初創(chuàng)公司,由幻方量化聯(lián)合創(chuàng)始人梁文峰于2023年7月創(chuàng)立,專注于大語言模型的研發(fā)。

在春節(jié)前,DeepSeek相繼發(fā)布了兩款同名的開源大語言模型:DeepSeek-V3(2024年12月26日)和DeepSeek-R1(2025年1月20日)。它們的性能可以與OpenAI的閉源模型GPT-4o和o1等其它大語言模型相媲美,且成本明顯低于其它模型。

DeepSeek-V3模型旨在提供高性價比的服務(wù),能夠快速地響應(yīng)用戶的需求,滿足自然語言處理、問答翻譯、內(nèi)容生成等日常任務(wù)的需求。DeepSeek-R1模型專注于復雜的推理任務(wù),特別是在數(shù)學問題、代碼生成、邏輯推理等領(lǐng)域具有更強的能力,但響應(yīng)時間也相對較長。

DeepSeek為什么會受到如此大的關(guān)注?

DeepSeek-V3和DeepSeek-R1在春節(jié)前發(fā)布后,憑借其與OpenAI為首的頂尖大模型相當?shù)男阅芤约暗土挠柧毘杀竞屯评碣M用,迅速引發(fā)了全球的廣泛關(guān)注。DeepSeek的高性價比挑戰(zhàn)了美國大模型的壟斷地位,它的推出使得更多企業(yè)和用戶能夠以更低的價格體驗到最先進的AI成果。

DeepSeek開源了其技術(shù)細節(jié)和模型權(quán)重,使得更多人能夠利用其成果進行創(chuàng)新和研發(fā)。與此同時,DeepSeek還免費開放了在線服務(wù),吸引了大量用戶體驗,形成了前所未有的熱潮。在DeepSeek-R1正式發(fā)布7天后,DeepSeek超越ChatGPT登上了AppStore免費應(yīng)用下載排行榜的榜首。DeepSeek的成功標志著中國在AI領(lǐng)域的重大進展,提升了中國在全球AI技術(shù)競爭中的地位。目前,多個企業(yè)和高校已經(jīng)開始自主部署DeepSeek模型,進一步證明了它的廣泛應(yīng)用潛力。

它為什么能用這么低的成本、這么有限的算法實現(xiàn)這么強大的能力?是只在中文表達上強大,還是各種性能都還不錯?

DeepSeek能夠以較低的訓練成本實現(xiàn)強大的能力,主要得益于DeepSeek長期以來在模型架構(gòu)和算法層面的持續(xù)創(chuàng)新。

具體來說,DeepSeek通過使用混合專家架構(gòu)(MoE)和多頭潛在注意力(MLA)等技術(shù)有效降低了推理成本。同時,借助數(shù)據(jù)蒸餾、分布式訓練優(yōu)化、以及硬件層面的精細調(diào)優(yōu),DeepSeek進一步提升了資源利用率,從而降低了訓練成本。多種創(chuàng)新的優(yōu)化技術(shù)的融合使得DeepSeek在僅擁有較低的訓練和推理成本的同時,能夠提供強大的性能。

在中文的理解和應(yīng)用方面,DeepSeek有著突出的表現(xiàn),它不僅能夠理解古文,創(chuàng)作詩詞,還能準確掌握時下流行的網(wǎng)絡(luò)用語。而相比之下,ChatGPT的中文雖然語法通順,卻顯得較為生硬。不過,DeepSeek的強大能力并不僅限于中文表達,在官方公布的多項標準評測中,DeepSeek在英文、百科知識、長文本、代碼、數(shù)學能力等領(lǐng)域均達到了頂尖水平。

DeepSeek在不同領(lǐng)域的性能表現(xiàn)

(圖片來源:參考資料2)

在AI的范疇內(nèi),使用中文是否代表著更高的效率?

在AI領(lǐng)域,“效率”更高往往意味著處理速度更快,或者理解的準確性更高,或者生成的內(nèi)容質(zhì)量更好。

首先,中文和英文在結(jié)構(gòu)上有很多不同。中文是表意文字,一個字可以表達很多意思,而英文是字母文字,每個單詞由多個字母組成。中文相比英文在表達上更簡潔、高效,信息密度更高。在表達相同的意思時,中文往往能更簡潔地傳達內(nèi)容。因此在AI領(lǐng)域,使用中文可以提高表達效率,進而降低成本。

但同時,中文多樣的語義和復雜的語法結(jié)構(gòu)也對AI的理解能力提出了挑戰(zhàn)。比如,在中文中,“花”可以是植物,也可以是花費,這可能讓AI在理解上下文時更難。而英文雖然也有同義詞和多義詞的問題,但結(jié)構(gòu)上可能更清晰一些。所以,處理中文的時候,AI需要更多的上下文信息來準確理解意思。

此外,數(shù)據(jù)量和模型的設(shè)計與優(yōu)化也應(yīng)當納入考慮范圍。如果AI模型在訓練時使用了大量的中文數(shù)據(jù),那么它可能在處理中文任務(wù)時表現(xiàn)更好。反過來,如果數(shù)據(jù)主要來自英文或者其他語言,那么AI在處理這些語言的時候效率可能會更高。某些模型可能是專門為某種語言而設(shè)計的,在這種情況下,在該語言上的效率自然就會更高。

關(guān)于中文在AI領(lǐng)域是否具有顯著的優(yōu)勢,目前尚無定論,未來如何挖掘中文的潛在優(yōu)勢可能將成為重要的研究方向。

為什么在回答用戶問題的時候,DeepSeek可以展示其“深度思考過程”?

DeepSeek-R1在回答用戶問題時可以展示其深度思考過程是因為它使用了思維鏈(Chain of Thought, CoT)技術(shù)。思維鏈技術(shù)模仿人類的思考方式,它要求模型將復雜任務(wù)分解成簡單步驟然后再逐步解決,從而增強模型在復雜推理任務(wù)中的能力。

OpenAI的o系列模型也使用了思維鏈技術(shù),但OpenAI并未向用戶公開模型的原始思維鏈,而是僅提供了一個思維鏈的總結(jié)。而DeepSeek-R1作為開源模型,則完全開放了思維鏈,用戶可以清晰地看到模型在解決問題時的全部推理過程。

ChatGPT與DeepSeek分別有哪些特點?它們是否代表AI大模型以后的兩種發(fā)展方向,還是會融合發(fā)展?

ChatGPT基于OpenAI的GPT系列模型,使用了大量多語言數(shù)據(jù)進行訓練,支持多語言、多模態(tài),能夠跨語言和跨領(lǐng)域提供服務(wù)。作為閉源模型,它由OpenAI為用戶提供在線服務(wù)。

DeepSeek則在中文領(lǐng)域進行了優(yōu)化,擁有較低的訓練和推理成本。DeepSeek是開源模型,用戶可以根據(jù)需要自行部署并進行定制化修改。目前它們的技術(shù)架構(gòu)和市場定位都有所不同,但隨著技術(shù)的發(fā)展,未來可能會出現(xiàn)更多相互借鑒融合的趨勢,例如DeepSeek可能會借鑒ChatGPT的多模態(tài)能力,ChatGPT也可能會優(yōu)化其本地化服務(wù)以應(yīng)對DeepSeek等競爭對手的挑戰(zhàn)。

DeepSeek發(fā)布的是開源模型,開源以后,后面應(yīng)當如何保持領(lǐng)先?

DeepSeek的創(chuàng)始人梁文鋒表示,現(xiàn)在的生成式人工智能并不是終點,未來的目標是朝著實現(xiàn)通用人工智能邁進。在AI技術(shù)快速發(fā)展的當下,大家都沒有碾壓對手的技術(shù)優(yōu)勢,即使閉源也無法阻止被別人趕超。為了應(yīng)對這一挑戰(zhàn),他們希望將價值沉淀在團隊的成長之中,通過持續(xù)的創(chuàng)新來保持領(lǐng)先。開源的決策正是基于這一考量,開源可以打破技術(shù)壟斷,降低技術(shù)門檻,激發(fā)更廣泛的技術(shù)合作與創(chuàng)新。開源能夠吸引更多的開發(fā)者共同參與貢獻,構(gòu)建一個開放與多元化的技術(shù)發(fā)展環(huán)境。DeepSeek希望通過這種方式推動技術(shù)的長遠發(fā)展,保持領(lǐng)先地位,成為AI技術(shù)的引領(lǐng)者。

打開使用頁面,有“深度思考(R1)”和“聯(lián)網(wǎng)搜索”選項,二者在使用上有何區(qū)別?如何能更好地使用這種推理型大模型?

打開深度思考(R1)選項后,后臺會切換到DeepSeek-R1模型,這個模型專注于需要復雜推理的場景,如數(shù)學或編程方面的問題。它能夠展示詳細的思維過程,提供推理步驟與最終結(jié)果。

聯(lián)網(wǎng)搜索選項則允許模型獲取實時互聯(lián)網(wǎng)搜索的結(jié)果,適用于時效性較強、需要獲取最新信息的問題,模型可以根據(jù)搜索結(jié)果提供實時更新的答案。

在使用深度思考(R1)功能時,在提問中用戶無需額外引導模型進行思考,只需要明確表達自己的需求,避免模糊不清的表述,以便模型更好地理解并提供準確的答案。在深度思考模式下,除了模型的最終答案外,用戶還可以關(guān)注模型給出的思考過程,從而更好地掌握解決問題的詳細方法。

哪些領(lǐng)域的工作受到DeepSeek的可能沖擊最大,甚至能被取代?

DeepSeek等大語言模型可能會對那些依賴信息檢索、數(shù)據(jù)分析、重復性高且目標明確的行業(yè)產(chǎn)生沖擊。例如內(nèi)容創(chuàng)作、數(shù)據(jù)處理、翻譯校對、人工客服、人力資源管理和財務(wù)審計等領(lǐng)域,可能會被自動化的AI技術(shù)所替代。AI可以高效地完成用戶需求的任務(wù),從而減少對人工的依賴。

然而,對于一些需要創(chuàng)造性、情感智力和人際溝通的工作來說,人工的參與仍然不可或缺。**在AI技術(shù)飛速發(fā)展的當下,人們需要不斷提升這些難以被AI輕易替代的能力。這些能力可以幫助個人在職場中保持競爭力,確保在未來的工作環(huán)境中,人與AI能實現(xiàn)更好的協(xié)作和互補,共同推動社會進步。

AI發(fā)展的速度怎么這么快?會越來越快嗎?

AI在過去幾年中迅速發(fā)展,這得益于多個因素的推動。

首先,計算能力的大幅提升,尤其是GPU等硬件技術(shù)的發(fā)展,使得AI模型能夠處理更大規(guī)模的數(shù)據(jù),訓練出更復雜的模型,從而提升了整體性能。

其次,互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展為AI訓練提供了豐富的數(shù)據(jù)庫。同時,深度學習領(lǐng)域算法架構(gòu)的突破,也使得AI的能力不斷增強。近年來,科技公司和投資者紛紛看到了AI的潛力,并在資金和技術(shù)上給予了大力支持,這些因素共同促進了AI技術(shù)的飛躍發(fā)展。

雖然許多專家認為AI將在未來繼續(xù)快速發(fā)展,但是否能夠保持當前的速度仍然存在不確定性。樂觀者認為,AI的進步將會呈現(xiàn)指數(shù)爆炸的趨勢,隨著AI智能的增長,AI迭代的速度將會越來越快,最終完全超越人類。然而,算力和數(shù)據(jù)可能會成為制約AI技術(shù)發(fā)展的瓶頸,大型模型的訓練需要越來越多的算力,而計算能力的發(fā)展目前已經(jīng)不足以完全滿足AI訓練的需求。同時,人類現(xiàn)有的數(shù)據(jù)在未來幾年內(nèi)可能會被耗盡。

未來AI技術(shù)如何突破算力和數(shù)據(jù)的瓶頸,繼續(xù)飛速發(fā)展,仍然需要全世界科研人員的共同努力。此外,AI可能引發(fā)的倫理、法律與社會問題也逐漸引起了人們的擔憂,一些科學家已經(jīng)呼吁暫停開發(fā)更強大的AI系統(tǒng),直至人們可以確保其安全性和可控性。

參考資料:

1.https://en.wikipedia.org/wiki/DeepSeek

2.https://api-docs.deepseek.com/zh-cn/news/news1226

3.https://api-docs.deepseek.com/zh-cn/news/news250120

4.Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., ... & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437.

5.Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.

內(nèi)容資源由項目單位提供