Skip to Content Facebook Feature Image

OpenAI新模型o1表現接近理化博士生水平 能解決83%國際奧數問題    

博客文章

OpenAI新模型o1表現接近理化博士生水平  能解決83%國際奧數問題     
博客文章

博客文章

OpenAI新模型o1表現接近理化博士生水平 能解決83%國際奧數問題    

2024年09月13日 12:45 最後更新:12:56

生成式人工智慧領域領導公司OpenAI,在美國時間9月12日發布擁有深度思考能力的o1 預覽模型,OpenAI稱,這是未來一系列的「用於解決更難問題的推理模型」的一部分,測試後發現新模型的表現已接近物理、化學和生物方面的博士生水平,能解決國際數學奧賽測驗資格考試83%的問題。今次也顯示OpenAI未來趨勢,除針對ChatGPT等廣泛人群的聊天應用,也將精力放在處理和解決專業領域問題的能力上。

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」。OpenAI表示,這些模型的思考過程「更像人」,在面對複雜問題時,會花更多的時間去思考而不是立即做出回應。透過訓練,模型將學會如何進一步改善思考過程,嘗試不同的策略以及認識到先前的錯誤。

OpenAI稱,測試後發現新模型的表現已經接近物理、化學和生物方面的博士生水平,這些測試也發現在程式設計和數學方面展現出更非凡的能力。

對國際數學奧賽測驗的資格考試,GPT-4o只能解決13%的問題,但最新推理模型o1能夠解決83%的問題。

對國際數學奧賽測驗的資格考試,GPT-4o只能解決13%的問題,但最新推理模型o1能夠解決83%的問題。

對比之下,對國際數學奧賽(IMO)測驗的資格考試,GPT-4o只能解決13%的問題,但最新的推理模型能夠解決83%的問題。新模型的程式設計能力在相關的程式測試中,達到超出89%其他模型的水平。

但OpenAI方面也強調,作為早期的預覽版模型,新推理模型還不能像ChatGPT那樣解決更全面的問題,例如透過瀏覽網頁尋找資訊、上傳文件和圖像等,換句話說,推理模型的主要能力體現在深度思考上,而非其他廣泛的淺層應用。

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」,過程「更像人」 。AP圖片

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」,過程「更像人」 。AP圖片

在安全性方面,在新模型的訓練方面採取了新的訓練路徑,使得模型依照安全和利益一致性的指導進行。由於推理模型能夠理解安全條例的上下文,所以能夠更有效率地應用它們。

OpenAI稱,衡量安全性的一個測試方法是,使用者透過不斷嘗試繞過安全條款(又被稱為「越獄」)的情況下,模型能否繼續遵循安全條款輸出結果。在最嚴苛的類似測試下,在滿分100分的情況下,GPT-4o拿到了22分,但新的o1預覽模型則取得了84分。

OpenAI稱,新的推理模型強化的推理能力對於在科學、程式設計、數學和其他專業領域方面顯得更有用,例如o1模型能夠被醫療研究人員用於註釋細胞序列數據,也能夠被物理學家用於生成複雜的數學公式,並被各個領域的開發人員用於建立和執行多步驟的工作流程。

OpenAI的未來趨勢,除針對ChatGPT等聊天應用,也將精力放在處理和解決專業領域問題的能力上。

OpenAI的未來趨勢,除針對ChatGPT等聊天應用,也將精力放在處理和解決專業領域問題的能力上。

從OpenAI最新發布的推理模型可以看出,對於新推出的一系列推理模型,OpenAI將精力放在了模型處理和解決專業領域問題的能力上,而非更廣泛的能力;也反映出未來進一步趨勢,既針對廣泛人群和用戶的ChatGPT人工智慧聊天應用,有解決圖像、視訊的DallE、Sora模型,也有剛推出的針對專業領域、需要深度思考和問題解決能力的o1 preview。




深喉

** 博客文章文責自負,不代表本公司立場 **

中國產如大疆無人機在美國早已被廣泛應用於科研、農業及救援等各行各業,物美價廉的優勢幾乎無可取代。然而美國政客卻對中國製造無人機圍追堵截,甚至擬下禁令,封殺大疆等品牌的新產品在美使用,這令一眾長期使用並信賴大疆產品的科學家一籌莫展,直斥:簡直瘋了!

大疆無人機飛越鯨魚上空,搜集噴出水柱的生物數據(DJI網站圖片)

大疆無人機飛越鯨魚上空,搜集噴出水柱的生物數據(DJI網站圖片)

科學家用大疆無人機收集鯨魚數據 

美國《科學》雜誌在12月16日發表的一篇文章中提到,由中國公司大疆(DJI)生產的消費級無人機一直是非營利性組織「海洋聯盟」(Ocean Alliance)開展學術研究的主力,但在美國政客所謂「國家安全」的鼓噪聲中,這款中國產品正面臨被封殺的風險。而面對這種局面,有美國海洋科學家直呼「簡直是瘋了」,因為中國無人機別無替代,幾乎是他們唯一信任的產品。

成本低更對瀕危物種減少干擾

「海洋聯盟」數年前發起了一項名為Snotbot的項目,將無人機送往鯨魚出沒的海面,在牠們躍出水面呼氣時,采集從其體內噴射出的水柱作為研究樣本,分析其中豐富的生物數據:DNA、激素和大量微生物。而大疆出品的無人機在項目中發揮了重要作用。

科研人員用大疆無人機收集鯨魚數據(DJI網站圖片)

科研人員用大疆無人機收集鯨魚數據(DJI網站圖片)

在大疆發布的一段影片中,研究人員將樣本收集裝置掛載到大疆「悟」Inspire 1無人機上並飛往鯨魚呼出液體的空域,記錄了無人機如何以更低成本、更小風險來收集樣本,也降低了對鯨魚這樣的大型生物的干擾。

科研活動因政客法案面臨無機可用的危機

「海洋聯盟」首席執行官伊恩·科爾(Iain Kerr)表示,與傳統的活檢任務相比,Snotbot提供了一種非侵入性、更便宜的方法來了解瀕危的巨型動物。然而,這項科研活動正面臨美國政客法案帶來的挑戰,可能會令美國科學家無法使用中國制造的無人機開展研究活動。

美國眾議院和參議院相繼於12月11日和18日通過了2025財年國防授權法案,大疆和道通(Autel Robotics)這兩家中國公司可能被禁止在美國市場銷售新的無人機。這份長達1800頁的法案聲稱,美國國家安全機構必須在一年內確定這兩家企業的無人機是否構成「不可接受的國家安全風險」。

大疆無人機或遭到禁止推出新產品

大疆是世界上最大的無人機制造商,銷售了美國市場一半以上的商用無人機。大疆表示,如果沒有任何機構完成相關研究,該公司的產品將被自動納入美國聯邦通信委員會(FCC)所謂的「受管制清單」之中。若真的如此,這意味著該公司「將因非自身原因而無法在美國市場推出新產品,僅僅是因為沒有任何機構選擇承擔研究我們產品的工作」。

大疆還表示,中國無人機受到了不公平的審查,公司「已主動將其產品提交定期的獨立安全審計,並擴大了在消費級和企業級無人機中內置用戶隱私控制的範圍」。

科學家直言簡直是瘋了!

《科學》雜誌也注意到,大疆的無人機長期以來一直是許多研究人員的首選,無論是繪制生態系統中的碳循環,還是跟蹤野火煙霧中的微生物,再到監測脆弱物種的一切,都有大疆無人機的身影。大疆目前佔美國無人機市場的70%至90%,科學家表示他們幾乎沒有其他選擇。目前美國生產的無人機成本是大疆的10倍,但航程和電池壽命卻更短。

如今美國政客的這項法案,可能會讓科學家們被迫放棄手中至關重要的科研工具,讓許多使用無人機的研究人員對未來感到緊張。科爾直言「幾乎沒聽說過有誰會讓你停止使用無法替代的東西,在我看來,這簡直是瘋了!」他更表示「我不想讓劣質產品飛越瀕危物種。你需要給我最好的工具,那就是大疆。」

「海洋聯盟」科研人員放飛大疆無人機(DJI網站圖片)

「海洋聯盟」科研人員放飛大疆無人機(DJI網站圖片)

部分人還表示,他們擔心美國國家海洋和大氣管理局(NOAA)、林務局等其他政府機構也會效仿五角大樓,一刀切地禁止所有研究使用的大疆無人機。

愛達荷大學的野火科學家勒達·科布齊(Leda Kobziar)是火焰空氣生物學領域學者,她的研究經常要求她派遣無人機編隊進入猛烈的火焰中,從中搜集微生物信息。她感慨,即便面對火焰的高溫和對流氣團的考驗,大疆無人機的表現也「非常穩定」。相比之下,她經常看到其他品牌的無人機出現通信錯誤等故障。

為了應對可能的封殺令,科布齊團隊一直在拼湊資金,購買一架美國制造的無人機,但價格卻是大疆的兩倍,為此團隊最終只能購買一架。

科布齊團隊利用大疆無人機搜集野火中的生物樣本 《科學》雜誌(網上圖片)

科布齊團隊利用大疆無人機搜集野火中的生物樣本 《科學》雜誌(網上圖片)

伍茲霍爾海洋研究所的湯姆·貝爾(Tom Bell)也是中國無人機的忠實用戶,他使用大疆無人機繪制沿海海藻和海草中儲存的碳地圖。為了把昂貴的傳感器帶到遠海,大疆是他唯一信任的無人機品牌,因為「你不必擔心你的無人機回不來」。如今貝爾也擔心,大多數實驗室首選的中型尺寸無人機缺乏現實的美版替代品。

華盛頓州立大學生態學家阿爾詹·梅登斯(Arjan Meddens)使用大疆無人機繪制森林生態系統地圖。他說,如果美國真的想封殺中國設備,那就投資於更好、更實惠的無人機技術,否則美國研究人員將面臨高昂的研究成本,相比其他地方的科學家處於「非常不利的地位」。

美國政客對中國無人機無端刁難已久

事實上,美國政客對中國無人機的無端刁難已經持續了數年之久。2017年,美國五角大樓曾以所謂「數據安全隱患」為由,禁止美軍使用大疆無人機產品,對其開始長達一年的制裁。2020年,美國商務部又以「違反美國國家安全」為由,宣布將包括大疆在內的多家中國企業列入出口管制「實體清單」。

自今年以來,一些美國政客仍頻頻鼓吹打壓和限制中國無人機。3月,美「中國委員會」呼籲拜登政府對中國無人機,包括從其他國家轉運進入美國的中國無人機征收更高的關稅,並采取新的激勵措施來促進美國無人機制造商的發展。

中國產無人機在美國廣泛應用於科研(DJI網站圖片)

中國產無人機在美國廣泛應用於科研(DJI網站圖片)

政客封殺令引發各方不滿

但在中國無人機產品「質量好、技術高、交貨快、價格還實惠」的種種優勢面前,美政客的封殺令正引發越來越多的不滿。

《華爾街日報》8月7日發表的一篇報道指出,美國政客封禁中國制造無人機的企圖,正遭到國內山地救援隊、警察局和農戶等多方抵制。大批中國無人機的忠實用戶紛紛發起抗議,他們致電民選官員、撰寫專欄文章並簽署聯名信,反對封殺令,因為美國制造的無人機無論技術還是能力,都遠遠比不上中國產品。

中國產無人機物廉價美 美產無人機無法匹敵

《日經亞洲》6月也曾發文稱,包括美國肯塔基州、新澤西州和康涅狄格州在內的一些公共安全機構,都使用自己的預算購買了中國無人機。許多人表示,即使美國政府提高關稅,他們也會購買。一些執法人員指出,美國無人機的價格是中國無人機的三到四倍,技術水平卻無法相提並論。

肯塔基州警官特拉斯維·庫克打了個有趣的比方:「你寧願開一輛凱迪拉克Escalade(超豪華SUV),擁有一切舒適感和性能感,讓你的工作更輕松,還是你寧願花更多錢開一輛根本沒有選擇的福特Escort(緊湊型轎車)?」

你 或 有 興 趣 的 文 章