- 鄧聲興
香港股票分析師協會主席

鄧聲興:各科企研低成本AI大模型 減依賴高端晶片

隨着Deepseek火爆,重塑AI大模型競爭格局,全球AI競爭日益激烈,各大科技企業爭先部署以求突破。

4月29日,阿里巴巴(09988)宣布開源新一代通義千問模型Qwen3,該中國首個混合推理模型系列包含2款參數規模分別爲30B和235B的混合專家(MoE)模型,235B模型的參數量僅爲DeepSeek-R1的三分之一,成本大幅下降,性能更全面超越R1、OpenAI-o1等全球頂尖模型,再度刷新中國AI發展記錄。

隨後馬思克繼官宣Grok 3.5即將發布,小米集團(01810)4月30日也官宣正式推出專注推理能力的開源大模型「Xiaomi MiMo」。該模型僅用7B參數規模在數學推理和代碼競賽測評中超越OpenAI的閉源模型o1-mini以及阿里巴巴Qwen的開源推理模型QwQ-32B-Preview。顯示現時海內外各頭部企業對大模型領域的重視、競爭與投入,特別是在中國客氣在相關領域的接連突破下。料未來內地科技企業未來都或會投入更多資源去研究及部署大模型,以提升自身及國家的競爭實力,相信對中國AI產業鏈發展有益。

比如,早前已有媒體報道,小米正在建設萬卡GPU集群,並引入頂尖AI人才,也有傳言指DeepSeek-V2的關鍵開發者之一羅福莉將加入小米。騰訊(00700)近日也宣布對其混元大模型研發體系進行了全面重構,加碼研發投入,並重新部署團隊成立大語言模型部和多模態模型部兩個新的部門。

此外,從早前DeepSeek通過系列算法創新及工程優化,使用性能較低的英偉達H800訓練出了性能與頂尖模型相當的V3與R1,爲大模型的訓練開創新思路,並打破以往全球AI大模型的開發的對於頂尖人才、先進算力、晶片和巨額投資競爭。螞蟻集團近期的實驗結果顯示,其3000億參數的MoE大模型可在使用國產GPU的低性能設備上完成高效訓練,性能與完全使用英偉達晶片、同規模的稠密模型及MoE模型相當,現時國產大模型對高端晶片性能的依賴正在降低。

同時,比如騰訊混元大模型、阿里千問大模型等的近期發展,多數是按高速、慢速、和將推理和學習能力分成兩種,從而采用不同的晶片,可以大幅減低參數,解決依賴高端晶片的問題,相信也都或會是未來的發展方向。

香港股票分析師協會主席 鄧聲興(作者未持有上述股份)