富途策略師團隊:「人類最後的考試」有多難?
英國數學家艾倫·圖靈在1950年提出,如果一台機器能夠與人類展開對話,而不被辨識出其機器身份,那麼這台機器便堪稱具有智能。作為AI領域最早的評估標準之一,圖靈測試奠定了智能模擬的理論基礎。然而,它僅關注語言交流能力,缺乏對推理深度和知識廣度的考量,這成為了其主要局限性。
近年來AI技術突飛猛進,已經讓「機器能否思考?」這個問題不再有爭議。現代AI系統(如ChatGPT、DeepSeek)能在特定情景下輕鬆通過傳統圖靈測試後,「機器能否解決複雜難題?」成為了新的爭論。
於是,2025年初由AI安全中心(CAIS)和Scale AI聯合推出的「人類最後的考試」(Humanity's Last Exam,簡稱HLE)成為了AI測試的基準,並被廣泛認為是當前評估AI系統的「終極挑戰」。其名稱也暗藏深意,若AI能通過此考試,人類在智力領域的優勢將可能被徹底顛覆。
HLE從7萬題中精選而出,由全球50國、500多機構的近千名專家設計,涵蓋數學、物理、化學、人文等100多學科。題目中80%為精確匹配題(需輸出完全匹配的字符串),其餘為多選題(從5個或更多選項中選擇)。
看過上圖中的幾道參考題目後,筆者團隊直接舉手投降,「人類最後的考試」難度相信已經不言而喻了吧。
7月9日,上海交大與深勢科技推出X-Masters系統(基於DeepSeek-R1),首次突破30%的得分門檻(達32.1%),超越先前最高分26.9%(Kimi/Gemini)。僅一天後,馬斯克發布Grok 4 Heavy,並宣稱其在「重思考模式」下得分達58.3%。這些不斷刷新的成績背後,是算力和算法的雙重優化。
周末,馬斯克宣布 Grok 4(xAI)已部署至TESLA自動駕駛系統,引發熱烈討論。儘管這項技術對TESLA短期盈利的貢獻仍需市場驗證,但筆者認為將其提前推向市場、積累實際駕駛數據,對特斯拉FSD技術的發展至關重要,因為FSD技術的應用場景遠不止Robotaxi一項。
而在本周,美國監管機構批准H20晶片對中國市場的銷售許可。這項政策調整推動NVDA股價達到新的歷史高點。SOX費城半導體指數的上升軌迹顯示半導體行業整體表現明顯改善。由於人工智能持續快速發展,半導體產品需求已超過供應能力,預計該產業板塊將維持強勁的市場表現。
從「機器能否模仿人類」到「機器能否思考」,人類花了70年時間找到答案。而從「機器能否解答複雜難題」到「機器是否能比人類更聰明」,筆者相信人類在十年內就會得到答案。
富途策略師團隊