當(dāng)前,全球人工智能技術(shù)加速迭代,已成為推動新一輪科技革命和產(chǎn)業(yè)變革的核心力量,為新質(zhì)生產(chǎn)力的發(fā)展注入了前所未有的時代動能。我國順應(yīng)這一趨勢,逐步構(gòu)建起涵蓋基礎(chǔ)層、框架層、模型層與應(yīng)用層的完整人工智能產(chǎn)業(yè)體系,為新質(zhì)生產(chǎn)力的現(xiàn)實轉(zhuǎn)化提供了堅實支撐。特別是以Deep?Seek為代表的國產(chǎn)大模型持續(xù)突破核心技術(shù)瓶頸,在跨模態(tài)理解、知識生成與自主推理等方面展現(xiàn)出顯著優(yōu)勢,不僅有效提升了智能化生產(chǎn)效率,而且加速了智能技術(shù)與實體經(jīng)濟(jì)的深度融合,成為驅(qū)動新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵創(chuàng)新支撐。
(一)全球人工智能發(fā)展方興未艾為新質(zhì)生產(chǎn)力發(fā)展提供時代機(jī)遇
人工智能作為新一輪科技革命和產(chǎn)業(yè)變革的主導(dǎo)性技術(shù),不僅實現(xiàn)了生產(chǎn)力的指數(shù)級躍遷,而且深刻地滲透到社會生產(chǎn)生活的各個方面,給世界政治、經(jīng)濟(jì)、文化各方面帶來了深遠(yuǎn)的影響。鑒于此,世界主要經(jīng)濟(jì)體爭相制定并實施人工智能發(fā)展戰(zhàn)略,積極推動人工智能技術(shù)的研究與應(yīng)用。
從全球主要經(jīng)濟(jì)體人工智能領(lǐng)域的發(fā)展態(tài)勢來看,已初步形成美、中、歐盟三足鼎立的格局,各經(jīng)濟(jì)體在政策規(guī)劃、研發(fā)投入、專利產(chǎn)出和產(chǎn)業(yè)應(yīng)用等層面各具特色。其一,政策規(guī)劃層面,通過頂層設(shè)計強(qiáng)化人工智能發(fā)展的戰(zhàn)略框架。美國是最早意識到人工智能戰(zhàn)略價值的國家,依托其雄厚的科研基礎(chǔ)和活躍的科技企業(yè)生態(tài),在人工智能領(lǐng)域始終保持著全球領(lǐng)先地位。歐盟在發(fā)展人工智能領(lǐng)域方面獨(dú)樹一幟,其策略著重于在科技創(chuàng)新與社會責(zé)任之間尋求平衡。其中2024年5月《人工智能法案》的正式生效,標(biāo)志著歐盟人工智能領(lǐng)域監(jiān)管立法與實踐走在世界前列。中國人工智能產(chǎn)業(yè)在國家戰(zhàn)略規(guī)劃的推動下形成“政策引導(dǎo)、場景驅(qū)動、產(chǎn)業(yè)協(xié)同”的發(fā)展格局,成為全球人工智能發(fā)展最具活力和潛力的國家之一。其二,研發(fā)投入層面,持續(xù)在人工智能領(lǐng)域?qū)嵤┲卮笸顿Y布局。美國斯坦福大學(xué)2025年4月發(fā)布的《2025年人工智能指數(shù)報告》顯示,2024年,在人工智能私人投資方面,美國以1091億美元遙遙領(lǐng)先,是排名第二的中國(93億美元)的11.7 倍[32]。在生成式人工智能投資方面,美國的投資超過了中國、歐盟,差距進(jìn)一步擴(kuò)大。在知識創(chuàng)新方面,2023年,中國發(fā)表的關(guān)于人工智能的論文(23.2%)和被引用次數(shù)(22.6%)均超過其他國家,但美國在具有高影響力的研究方面領(lǐng)先(被引次數(shù)最多的前100名)。另外,美國仍是知名大模型的核心策源地,2024 年美國產(chǎn)生了40個知名大模型,遠(yuǎn)超中國和歐盟。盡管美國在數(shù)量上保持領(lǐng)先,但中美之間頂尖模型的性能差異從2023年的4.9%縮減至2024年的0.7%[32],這表明中國大模型的質(zhì)量在迅速崛起。其三,專利產(chǎn)出層面,呈現(xiàn)出中美主導(dǎo)、多國競逐,技術(shù)集中度高且應(yīng)用導(dǎo)向明顯的發(fā)展態(tài)勢。截至2023 年年底,中國在總?cè)斯ぶ悄軐@麛?shù)量上領(lǐng)先,占所有專利授予的69.7%,是排名第二美國(14.2%)的4.9倍。其四,產(chǎn)業(yè)應(yīng)用層面,人工智能不再停留在實驗階段,落地轉(zhuǎn)化呈現(xiàn)出前所未有的活躍態(tài)勢。麥肯錫調(diào)查報告顯示,2024年有78%的受訪者表示,其所在組織在至少一個業(yè)務(wù)環(huán)節(jié)中使用人工智能,這一比例相較2023年的55%顯著提升;同時,生成式人工智能的使用率也由2023年的33%增長至71%。由此可見,人工智能正逐步從企業(yè)應(yīng)用中的輔助工具轉(zhuǎn)變?yōu)橥苿雍诵臉I(yè)務(wù)發(fā)展的關(guān)鍵力量。
(二)我國人工智能產(chǎn)業(yè)體系為新質(zhì)生產(chǎn)力發(fā)展提供現(xiàn)實條件
盡管我國人工智能發(fā)展起步較晚,但在國家戰(zhàn)略規(guī)劃和產(chǎn)業(yè)政策的推動下,人工智能發(fā)展“已進(jìn)入技術(shù)攻堅、應(yīng)用深化、生態(tài)重構(gòu)的新階段,在全球人工智能大模型發(fā)展中處于第一梯隊”,形成了涵蓋基礎(chǔ)層、框架層、模型層和應(yīng)用層的完整人工智能產(chǎn)業(yè)體系,為新質(zhì)生產(chǎn)力的發(fā)展提供了強(qiáng)勁引擎與廣闊空間。
人工智能產(chǎn)業(yè)各層級之間相互嵌套、協(xié)同推進(jìn),形成從技術(shù)供給到場景落地的閉環(huán)體系。其一,基礎(chǔ)層是人工智能產(chǎn)業(yè)發(fā)展的底層支撐,包括算力、算法和數(shù)據(jù)三大核心要素。算力方面,截至2024年底,我國在用算力中心機(jī)架總規(guī)模超過900萬標(biāo)準(zhǔn)機(jī)架,算力總規(guī)模達(dá)280EFLops(每秒百億億次浮點運(yùn)算),國家八大樞紐節(jié)點算力總規(guī)模達(dá)175EFLops;智能算力規(guī)模達(dá)90 EFLops,在總算力規(guī)模中占比提升至32%,為海量數(shù)據(jù)計算提供了智能底座。算法方面,基于Transformer架構(gòu)不斷進(jìn)行優(yōu)化與創(chuàng)新,諸如多頭潛在注意力機(jī)制和混合專家系統(tǒng)等結(jié)構(gòu)性創(chuàng)新顯著提升了算法在大模型訓(xùn)練與推理階段的效率與表現(xiàn)力。數(shù)據(jù)方面,通過構(gòu)建多源異構(gòu)、結(jié)構(gòu)化與非結(jié)構(gòu)化并重的行業(yè)知識圖譜與高質(zhì)量訓(xùn)練語料庫,為大模型預(yù)訓(xùn)練與垂類模型精調(diào)提供了豐富的“養(yǎng)料”保障。其二,框架層是連接基礎(chǔ)層與上層應(yīng)用的技術(shù)橋梁,主要包括深度學(xué)習(xí)框架、開發(fā)工具鏈及開源社區(qū)。深度學(xué)習(xí)框架方面,我國已構(gòu)建起以飛漿(PaddlePaddle)、昇思(MindSpore)、一流科技(OneFlow)等為代表的自主框架體系,初步具備與機(jī)器學(xué)習(xí)框架(TensorFlow)、深度學(xué)習(xí)工具(PyTorch)等國際主流框架競爭的能力。開發(fā)工具鏈方面,一是圍繞國產(chǎn)芯片,如昇騰(Ascend)、昆侖(Baidu)構(gòu)建的異構(gòu)兼容編譯工具與算子優(yōu)化系統(tǒng),實現(xiàn)了從硬件到算法的深度融合,顯著提升了大模型在本土算力平臺上的運(yùn)行效率;二是以飛槳、昇思為核心的開發(fā)工具鏈體系,在模型壓縮、自動并行訓(xùn)練、跨端部署、可解釋性分析等環(huán)節(jié)形成了差異化優(yōu)勢。開源社區(qū)方面,通過構(gòu)建活躍的社區(qū)生態(tài),聚集了大量開發(fā)者與開源項目,推動了開源技術(shù)的本土化演進(jìn)與產(chǎn)業(yè)化落地。其三,模型層聚焦大模型及垂直領(lǐng)域模型的研發(fā)與優(yōu)化,是技術(shù)落地的關(guān)鍵環(huán)節(jié)。深度求索、百度、騰訊、阿里巴巴、字節(jié)跳動、商湯科技等企業(yè)憑借各自的發(fā)展戰(zhàn)略和技術(shù)特色,“紛紛投身大模型研發(fā)賽道,不斷探索創(chuàng)新的模型架構(gòu)、訓(xùn)練算法與優(yōu)化策略,呈現(xiàn)‘百模競爭’的火熱局面”。其四,應(yīng)用層不僅是技術(shù)價值的最終體現(xiàn),更是驅(qū)動新質(zhì)生產(chǎn)力加快形成的實踐前沿。一方面,依托大模型與行業(yè)知識融合能力,在智能制造、智慧醫(yī)療、金融風(fēng)控、教育輔助、數(shù)字政務(wù)等領(lǐng)域持續(xù)涌現(xiàn)出一批具備場景適配性與規(guī)模化部署能力的AI應(yīng)用解決方案。另一方面,不斷推動算法能力與實體經(jīng)濟(jì)深度融合,催生了智能客服、虛擬人、智能駕駛、工業(yè)質(zhì)檢等新業(yè)態(tài)、新模式。
(三)DeepSeek大模型技術(shù)優(yōu)勢為新質(zhì)生產(chǎn)力發(fā)展提供創(chuàng)新支撐
DeepSeek之所以能夠在短時間內(nèi)實現(xiàn)對國際頂尖大模型的趕超,并非源自技術(shù)代際超越,而是現(xiàn)有算力、算法與數(shù)據(jù)三大核心維度實現(xiàn)了協(xié)同推進(jìn)、極致優(yōu)化的系統(tǒng)性創(chuàng)新,構(gòu)建了具有高性能、高效率和高適應(yīng)性的機(jī)器學(xué)習(xí)模型。
算力維度體現(xiàn)為自主可控的算力生態(tài)與技術(shù)鏈的系統(tǒng)整合。其一,實現(xiàn)動態(tài)異構(gòu)資源的高效映射。DeepSeek 采用動態(tài)資源調(diào)度策略,能夠在CPU、GPU、AI加速芯片等多種異構(gòu)算力資源之間實現(xiàn)高效映射。其底層調(diào)度系統(tǒng)可根據(jù)模型訓(xùn)練階段的不同計算需求,動態(tài)分配資源,從而提升整體算力利用率與能源效率。其二,國產(chǎn)化高性能芯片適配。DeepSeek在算力部署過程中,積極適配國產(chǎn)AI 芯片,如昇騰(Ascend)、寒武紀(jì)(Cambricon)等,并針對其架構(gòu)特性優(yōu)化深度學(xué)習(xí)框架與編譯器,加快了自主可控AI基礎(chǔ)設(shè)施的落地,提升了系統(tǒng)的安全性與可持續(xù)性。其三,引入FP8混合精度訓(xùn)練框架。DeepSeek-V3使用FP8(8位浮點數(shù))全棧技術(shù),提升算力運(yùn)行效率,并顯著降低對存儲的消耗,實現(xiàn)了“高性能—低能耗”的平衡。
算法維度體現(xiàn)為以稀疏激活機(jī)制為核心的算法效率優(yōu)化路徑。其一,混合專家模型架構(gòu)的優(yōu)化。該架構(gòu)主要通過細(xì)粒度專家、共享專家和路由機(jī)制實現(xiàn)了模型容量的高效擴(kuò)展,在保持模型整體容量(總參數(shù)671B)的同時,大幅降低了計算負(fù)載(每步僅激活參數(shù)37B),實現(xiàn)了“規(guī)模—效率”兼容。其二,多頭潛在注意力機(jī)制的創(chuàng)新。DeepSeek的多頭潛在注意力機(jī)制創(chuàng)新地采用低秩聯(lián)合壓縮技術(shù),顯著減少了推理時的鍵值緩存和訓(xùn)練時的激活內(nèi)存,同時保持了與標(biāo)準(zhǔn)多頭注意力機(jī)制相當(dāng)?shù)男阅堋F淙R蒸餾技術(shù)的應(yīng)用。DeepSeek的蒸餾技術(shù)將數(shù)據(jù)蒸餾與模型蒸餾相結(jié)合,通過監(jiān)督微調(diào)的方式,將教師模型的知識遷移到學(xué)生模型中,實現(xiàn)了從大型復(fù)雜模型到小型高效模型的知識遷移。
數(shù)據(jù)維度體現(xiàn)為本土語義建模與知識體系的融合并進(jìn)。其一,多令牌預(yù)測(MTP)技術(shù)的應(yīng)用。多令牌預(yù)測是語言建模中的一種先進(jìn)方法,其工作原理是通過模型一次預(yù)測多個token,以提升模型的訓(xùn)練效率、生成質(zhì)量和推理速度。DeepSeek團(tuán)隊率先將MTP技術(shù)應(yīng)用于大模型訓(xùn)練中,通過動態(tài)分配計算資源,利用MTP模塊約束模型的高效優(yōu)勢,在保持模型性能的同時顯著提升訓(xùn)練和推理效率。其二,本土知識結(jié)構(gòu)深度嵌入。DeepSeek在語料構(gòu)建過程中系統(tǒng)引入中國本土知識體系,包括傳統(tǒng)文化經(jīng)典、政策法規(guī)文書、國家發(fā)展戰(zhàn)略文本、產(chǎn)業(yè)發(fā)展資料與社會治理文獻(xiàn)等內(nèi)容。這種知識嵌入不僅增強(qiáng)了模型對特定領(lǐng)域語言的理解深度,也提升了其在面對中文場景時復(fù)雜語義推理與內(nèi)容生成的能力。
總體來看,DeepSeek通過“算力彈性化—算法稀疏化—數(shù)據(jù)價值化”的協(xié)同推進(jìn),突破了傳統(tǒng)大模型的“算力堆砌”困境,為大模型技術(shù)持續(xù)進(jìn)化提供了可擴(kuò)展的技術(shù)框架。(作者:劉偉)