科技媒體《The Information》引述消息指,近期火熱的中國AI模型初創公司DeepSeek,首次考慮向外集資。
圖片來源:阿里巴巴官網
報道指,若DeepSeek落實引入新資金,阿里巴巴(09988)、中投公司、社保基金等均有意參與。
有關報道引述的消息指,成立兩年的DeepSeek,由於其AI模型大受歡迎,現時有需要增加資源投放,以滿足明顯增加的需求,因此促成內部討論引入更多投資者。
除了引入新資金外,DeepSeek亦討論是否要改變方針,即由以往專注科研,不急於商業化產品避免引入外部資金,轉為建立商業運作模式,帶來大量收入最終獲取盈利。同時,該公司考慮租用東南亞數據中心,以獲取美國AI晶片龍頭輝達(Nvidia)的算力。
國產AI模型DeepSeek24日在「Hugging Face」平台上發布了「DeepSeek V3-0324」模型的更新。DeepSeek稱,這次更新能夠有效且準確地解決現實世界中的挑戰。
DeepSeek深夜突發V3更新
根據了解,「V3」模型是一款強大的混合專家(MoE)語言模型,擁有驚人的6710億個總參數。在處理每個token(如單詞或符號)時,該模型會動態選擇並啟動370億個參數進行計算。
模型保持高效性 且能提高預測準確性與性能
這種混合專家(MoE)技術的應用,不僅使得模型能夠高效運行,還能夠在保持高效性的同時,顯著提高預測準確性與性能。
AP圖片
訓練成本僅為557.6萬美元 成本直降95%
就訓練成本而言,DeepSeek V3-0324展現出極高的成本效益,其訓練成本僅為557.6萬美元,遠低於傳統的閉源模型,節省了95%的成本。這一成本優勢使得DeepSeek V3不僅在技術上取得突破,也讓企業在實際應用中能夠大幅降低成本。
AP圖片