富途策略師團隊：「人類最後的考試」有多難？

A-

A+

英國數學家艾倫·圖靈在1950年提出，如果一台機器能夠與人類展開對話，而不被辨識出其機器身份，那麼這台機器便堪稱具有智能。作為AI領域最早的評估標準之一，圖靈測試奠定了智能模擬的理論基礎。然而，它僅關注語言交流能力，缺乏對推理深度和知識廣度的考量，這成為了其主要局限性。

近年來AI技術突飛猛進，已經讓「機器能否思考？」這個問題不再有爭議。現代AI系統(如ChatGPT、DeepSeek)能在特定情景下輕鬆通過傳統圖靈測試後，「機器能否解決複雜難題？」成為了新的爭論。

於是，2025年初由AI安全中心(CAIS)和Scale AI聯合推出的「人類最後的考試」(Humanity's Last Exam，簡稱HLE)成為了AI測試的基準，並被廣泛認為是當前評估AI系統的「終極挑戰」。其名稱也暗藏深意，若AI能通過此考試，人類在智力領域的優勢將可能被徹底顛覆。

HLE從7萬題中精選而出，由全球50國、500多機構的近千名專家設計，涵蓋數學、物理、化學、人文等100多學科。題目中80%為精確匹配題(需輸出完全匹配的字符串)，其餘為多選題(從5個或更多選項中選擇)。

看過上圖中的幾道參考題目後，筆者團隊直接舉手投降，「人類最後的考試」難度相信已經不言而喻了吧。

7月9日，上海交大與深勢科技推出X-Masters系統(基於DeepSeek-R1)，首次突破30%的得分門檻(達32.1%)，超越先前最高分26.9%(Kimi/Gemini)。僅一天後，馬斯克發布Grok 4 Heavy，並宣稱其在「重思考模式」下得分達58.3%。這些不斷刷新的成績背後，是算力和算法的雙重優化。

周末，馬斯克宣布 Grok 4(xAI)已部署至TESLA自動駕駛系統，引發熱烈討論。儘管這項技術對TESLA短期盈利的貢獻仍需市場驗證，但筆者認為將其提前推向市場、積累實際駕駛數據，對特斯拉FSD技術的發展至關重要，因為FSD技術的應用場景遠不止Robotaxi一項。

而在本周，美國監管機構批准H20晶片對中國市場的銷售許可。這項政策調整推動NVDA股價達到新的歷史高點。SOX費城半導體指數的上升軌迹顯示半導體行業整體表現明顯改善。由於人工智能持續快速發展，半導體產品需求已超過供應能力，預計該產業板塊將維持強勁的市場表現。

從「機器能否模仿人類」到「機器能否思考」，人類花了70年時間找到答案。而從「機器能否解答複雜難題」到「機器是否能比人類更聰明」，筆者相信人類在十年內就會得到答案。

富途策略師團隊