華為夥浙江大學推安全DeepSeek模型 防有毒有害內容

華為與浙江大學聯合發布國內首個基於昇騰千卡算力平台的DeepSeek-R1-Safe基礎大模型,聲稱針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題,整體防禦成功率近100%。中國工程院院士陳純表示,DeepSeek-R1-Safe的發布,旨在打造安全可信的示範應用,推動大模型安全能力與產業生態協同發展。

根據華為,團隊首次實現基於昇騰千卡算力平台的千億級參數滿血版大模型安全訓練,系統性地解決了訓練環境中的關鍵問題,構建了伺服器間環境依賴同步、數據與權重共享、協同訓練推理等一系列開發工具。

測試結果顯示,DeepSeek-R1-Safe針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題,整體防禦成功率近100%;針對情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率超過40%。其綜合安全防禦能力達83%。