DeepSeek 推出整合華為晶片的 V4 模型,但獨立基準測試顯示其表現相對於競爭對手好壞參半

導言

2025年4月24日,中國人工智能初創公司 DeepSeek 發佈了其 V4 模型的預覽版,這是首個為華為的 Ascend 晶片進行適配的模型,標誌著其從以往依賴 Nvidia 硬件的轉變。然而,後續的獨立分析顯示,該模型的表現雖有改善,但並未超越所有國內及國際競爭對手。

正文

模型發佈與硬件合作 總部位於北京的 DeepSeek 在2025年初因其低成本人工智能模型而獲得全球關注,該公司於4月24日推出了 V4 Pro 預覽版。該公司表示,Pro 版本在世界知識基準測試中表現優於其他開源模型,僅次於 Google 的閉源模型 Gemini-Pro-3.1。此次發佈的一個顯著特點是與華為的緊密合作;這家中國電信公司確認其 Ascend 晶片被用於 V4 訓練過程的部分環節。這種從 Nvidia 人工智能晶片的轉向,凸顯了中國半導體行業的一個更廣泛趨勢:在美國出口管制下,國內替代方案正被優先考慮。Nvidia 行政總裁黃仁勳(Jensen Huang)此前曾警告,此類轉變可能損害該美國公司在中國的開發者生態系統。V4 模型還包括一個成本較低的 Flash 版本,DeepSeek 表示,預覽階段將允許在最終發佈前收集實際反饋,但未提供最終發佈的時間表。 獨立性能評估 發佈後不久,基準測試公司 Artificial Analysis 於4月25日(星期五)發佈了一份評估報告,將 V4 Pro 排在開源模型中的第二位,僅次於 Moonshot AI 的 Kimi K2.6。在 Artificial Analysis Intelligence Index 上,V4 Pro 得分為52,而 Kimi K2.6 得分為54。領先的美國閉源模型——OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 和 Google 的 Gemini 3.1 Pro——分別得分為60、57和57。雖然 V4 Pro 相較其前身 V3.2 有明顯改進,但並未達到頂級閉源系統的水平。人工智能工程師 Daniel Dewhurst 在 V4 發佈後對其進行了測試,他告誡說,在進行獨立評估和更廣泛的開發者測試之前,應謹慎對待基準測試的標題。然而,他指出,V4 證明了開源模型正在縮小與閉源模型的差距,特別是在成本效益、長上下文處理和編碼任務方面。該模型可以處理超過一百萬個 token,與 OpenAI 的 GPT-5.4 和 Anthropic 的 Claude Opus 4.6 的上下文窗口相當,但計算成本僅為其一小部分。限制包括缺乏對圖像和視頻等多模態的支持。 地緣政治與市場背景 此次發佈發生在白宮指控中國大規模盜竊美國人工智能知識產權的次日,並在美國總統當勞·特朗普(Donald Trump)計劃於5月訪問北京之前。DeepSeek 因被指不當依賴美國技術而受到華盛頓及美國競爭對手的批評;該公司承認使用了 Nvidia 晶片,但未澄清這些晶片是否受到出口禁令的約束,並否認故意使用 OpenAI 的合成數據。特朗普政府於1月批准向中國出售 Nvidia 的 H200 晶片,但據報道,由於兩國在銷售條款上存在分歧,出貨已被延遲。在金融市場上,中國晶片製造商華虹半導體(Huahong Semiconductor)和中芯國際(SMIC)的股價分別上漲15%和10%,原因是市場預期國內晶片採用率將提高。Nvidia 的股價也上漲,部分原因是英特爾(Intel)的樂觀收入預測,這增強了對人工智能持續增長信心。據報道,DeepSeek 自身的估值超過200億美元,科技巨頭阿里巴巴(Alibaba)和騰訊(Tencent)據稱正在討論入股。V4 的發佈導致國內競爭對手智譜AI(Zhipu AI)和 MiniMax 的股價各下跌9%。 對性能的不同觀點 雖然 DeepSeek 最初的公告聲稱其擁有頂級開源性能,但隨後 Artificial Analysis 的獨立分析呈現出更為細緻的圖景。這種差異可能反映了基準測試方法或評估時間的不同。DeepSeek 強調,V4 特別適合人工智能代理(AI agent)任務,這類任務需要比標準聊天機器人更強的計算能力。據機器學習工程師 Lewis Tunstall 稱,該模型迅速攀升至熱門開發者平台 Hugging Face 的榜首。他指出,V4 擅長以低於競爭頂級模型的成本處理極長且複雜的文本任務。儘管有這些優勢,但該模型無法處理多模態,且僅依賴單一基準測試的聲明,導致分析師呼籲進行進一步的獨立驗證。

結論

DeepSeek 的 V4 模型代表了重大的技術進步和向國內硬件的戰略轉變,但其相對於國內和美國競爭對手的表現仍存在爭議。此次發佈凸顯了中國在地緣政治緊張局勢下在人工智能自給自足方面的進展,但該模型的最終成功將取決於獨立驗證和實際應用。