鄧聲興：各科企研低成本AI大模型　減依賴高端晶片

A-

A+

隨着Deepseek火爆，重塑AI大模型競爭格局，全球AI競爭日益激烈，各大科技企業爭先部署以求突破。

4月29日，阿里巴巴(09988)宣布開源新一代通義千問模型Qwen3，該中國首個混合推理模型系列包含2款參數規模分別爲30B和235B的混合專家(MoE)模型，235B模型的參數量僅爲DeepSeek-R1的三分之一，成本大幅下降，性能更全面超越R1、OpenAI-o1等全球頂尖模型，再度刷新中國AI發展記錄。

隨後馬思克繼官宣Grok 3.5即將發布，小米集團(01810)4月30日也官宣正式推出專注推理能力的開源大模型「Xiaomi MiMo」。該模型僅用7B參數規模在數學推理和代碼競賽測評中超越OpenAI的閉源模型o1-mini以及阿里巴巴Qwen的開源推理模型QwQ-32B-Preview。顯示現時海內外各頭部企業對大模型領域的重視、競爭與投入，特別是在中國客氣在相關領域的接連突破下。料未來內地科技企業未來都或會投入更多資源去研究及部署大模型，以提升自身及國家的競爭實力，相信對中國AI產業鏈發展有益。

比如，早前已有媒體報道，小米正在建設萬卡GPU集群，並引入頂尖AI人才，也有傳言指DeepSeek-V2的關鍵開發者之一羅福莉將加入小米。騰訊(00700)近日也宣布對其混元大模型研發體系進行了全面重構，加碼研發投入，並重新部署團隊成立大語言模型部和多模態模型部兩個新的部門。

此外，從早前DeepSeek通過系列算法創新及工程優化，使用性能較低的英偉達H800訓練出了性能與頂尖模型相當的V3與R1，爲大模型的訓練開創新思路，並打破以往全球AI大模型的開發的對於頂尖人才、先進算力、晶片和巨額投資競爭。螞蟻集團近期的實驗結果顯示，其3000億參數的MoE大模型可在使用國產GPU的低性能設備上完成高效訓練，性能與完全使用英偉達晶片、同規模的稠密模型及MoE模型相當，現時國產大模型對高端晶片性能的依賴正在降低。

同時，比如騰訊混元大模型、阿里千問大模型等的近期發展，多數是按高速、慢速、和將推理和學習能力分成兩種，從而采用不同的晶片，可以大幅減低參數，解決依賴高端晶片的問題，相信也都或會是未來的發展方向。

香港股票分析師協會主席鄧聲興(作者未持有上述股份)