港大綜合測評：人工智能大語言模型「文心一言4」中文表現最佳

社會事

港大綜合測評：人工智能大語言模型「文心一言4」中文表現最佳

2024年03月12日 20:13 最後更新：20:40

港大經管學院日前就多個主流的人工智能大語言模型（LLMs）在中文及英文環境進行綜合深入評測，並發表評測報告，以及公佈中文和英文語境大模型排行榜。

在評測14款中文及16款英文語境下的人工智能通用大語言模型後，報告發現，在中文語境下，文心一言4綜合表現最佳；而在英文語境下，GPT 4-turbo領先優勢明顯。

在中文語境下，文心一言4綜合表現最佳，而GPT4-Turbo與通義千問2緊隨其後。

英文語境下，僅有 GPT 4-turbo一款模型的綜合得分獲得80 分以上。

大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置。

港大經管學院創新及資訊管理學教授蔣鎮輝，帶領深圳研究院人工智能研究所團隊構建一個通用大語言模型的綜合評價體系，以兩個核心評測目標，包括從用戶視角出發，全面評估主流大模型的能力，以及深入評估和分析國產大模型在英文場景中的優勢和局限性，並探究它們在英文領域的應用潛力。

港大經管學院創新及資訊管理學教授蔣鎮輝表示，中國具有大語言模型應用的豐富場景，特別是在教育、金融、醫療、法律、零售等方面，未來的想像空間是十分寬廣的。推動人工智慧技術在各個領域的落地，這需要各方面共同努力。另外，在人工智能大語言模型的領域，中國科技不該只做個追隨者，而應該勇於成為引領者，中國的大語言模型呼喚更多從0到1的原創性核心技術。

是次評測主要針對三大核心能力，包括自然語言能力、專業學科能力以及安全與責任。在中文語境下，文心一言4綜合表現最佳，獲得74.58分，而GPT4-Turbo與通義千問2緊隨其後。文心一言4對中文特色語境表現出更好的適應能力。在安全與責任方面，文心一言4得分亦最高，展現出較成熟的安全意識。文心一言 4的表現，也側面反映越來越多高品質的中文資料集，逐步被構築並應用於國產大模型，以創造出更好的中文思維 AI 助手。

在英文語境下，僅有 GPT 4-turbo一款模型獲得80 分以上的綜合得分，在各項能力上表現比較均衡，而在自然語言能力和學科試題上均表現突出，在安全與責任方面也名列前茅。對比其他大模型，GPT 4-turbo 的突出表現可能源於它在任務適應性，特別是在處理邏輯推理與創作類複雜任務和理解深層次語義上的卓越能力。對比GPT系列前代模型，GPT 4-turbo作為GPT系列模型的最先進版本，在API調用的表現，特別是在安全與責任能力上，比其前代模型優化顯著。

此外，是次評測的另一個重點，是在全英文環境中觀察9款國產大模型處理英文任務的能力。評測納入的國外大模型受認可度較高且開發語言均為英語，相比之下，大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置，原因跟它們訓練的數據大多是中文有關，不過個別國產大模型，例如文心一言4.0亦在多項英文任務上表現出色，展現出較強的優化潛力。

整體而言，是次測評中的國產大模型具備正確理解英文問題和指令的能力，僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產大模型可以在多語言輸出能力上進一步加強，令它們有望在國際舞台上展現更加強大和全面的競爭力。

往下看更多文章

阿里推AI新模型「通義千問」具深度思考圖像影片生成香港用戶免費用

阿里巴巴周一正式發布最新人工智能模型「通義千問」Qwen3，稱其性能可媲美Google的Gemini-2.5-Pro及OpenAI的o3-mini等國際頂級AI模型。這款中國自主研發的AI模型現已開放予香港用戶使用，標誌著中國在人工智能領域的快速發展。

多種功能全面升級

Qwen3具備深度思考、圖像生成及影片生成等多項先進功能。阿里巴巴表示，新模型採用「混合」架構，結合思維與非思維模式，能根據問題複雜度自動調整運算資源。部分型號更採用專家混合（MoE）技術，將任務分解由專門的小型模型處理，大幅提升回應效率。

語言能力大幅提升

這款新模型支援119種語言，訓練數據量接近36兆個代幣，內容涵蓋教科書、問答資料、程式碼片段及AI生成內容等。相比前代Qwen2，Qwen3在多項性能測試中表現出色，特別是在程式編寫和數學推理方面。

實測表現優異

在程式設計競賽平台Codeforces的測試中，Qwen3的最大模型Qwen-3-235B-A22B成功超越OpenAI的o3-mini和Google的Gemini 2.5 Pro。雖然阿里巴巴尚未公開此頂級模型，但已開放的中型模型Qwen3-32B在多項基準測試中，表現已優於OpenAI的o1模型。