聊天機器人ChatGPT去年11月發佈後迅速爆紅,有科學家擔憂,其強大的功能不僅導致更難被發現的抄襲問題,更可能誤導基於科學研究的政策決定、影響社會和科學的進步,令人「細思極恐」。
ChatGPT是人工智能研究實驗室OpenAI在2022年11月30日發佈的全新聊天機器人模型——人工智能技術驅動的自然語言處理工具,埃隆·馬斯克有份創立這個實驗室。
據介紹,ChatGPT支援中文等多國語言,能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,也能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、論文等任務。
不過,ChatGPT在掀起熱潮的同時,也引發了科學家們的擔憂。
去年12月27日,美國西北大學的 Catherine Gao 等人在預印本 bioRxiv 上發表了題為:Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 的研究論文。
研究團隊使用AI聊天機器人 ChatGPT 寫出了令人信服的研究論文摘要,甚至人類科學家都難以分辨真假。
事實上,自從ChatGPT發佈以來,研究人員就一直在努力解決圍繞其使用的倫理問題,因為它的大部分輸出很難與人類自己所書寫的文本區分開來。在這篇發表於預印本論文中,Catherine Gao 領導的研究團隊使用 ChatGPT 來生成研究論文摘要,以測試科學家是否能發現它們。
研究團隊要求ChatGPT根據發表在 JAMA、NEJM、BMJ、Lancet 和 Nature Medicine 這5個頂級醫學期刊上精選的論文來撰寫50篇醫學研究摘要。然後,研究團隊通過論文剽竊檢測器和人工智能輸出檢測器將這些摘要與原始摘要進行比較,並要求一組醫學研究人員找出那些是ChatGPT所編造的摘要。
結果令人驚訝,ChatGPT所編寫的摘要順利通過了論文剽竊檢查,原創性得分為100%,也就是沒有檢測到抄襲。人工智能輸出檢測器發現了33篇(識別率66%)由ChatGPT所編造的摘要,但人類審稿人並沒有能做得更好,人類審稿人只正確地識別了34篇(識別率68%)由ChatGPT所編造的摘要和86%的真正的論文摘要。也就說是,人類審稿人把32%的ChatGPT所編造的摘要識別為真實的論文摘要,而將14%的真實論文摘要識別為ChatGPT所編造的摘要。這意味著,ChatGPT在編造研究論文摘要方面,達到了人類專家都難辨真假的程度。
Catherine Gao 表示,ChatGPT寫出了令人信服的研究論文摘要,使用大型語言模型來幫助科學寫作的道德和可接受的界限仍有待確定。
這將為我們帶來一個顯而易見的難題:如果科學家都不能判斷這些由ChatGPT所編造的研究論文的真假,可能會帶來「可怕的後果」。這不僅會給科研人員帶來麻煩,因為他們閱讀的研究論文可能是由ChatGPT編造的。這也可能對整個社會帶來麻煩,因為科學研究在社會中發揮重要作用,基於科學研究的政策決定可能會受到ChatGPT編造的研究所誤導。
還有人工智能研究專家為這種依賴大型語言模型進行科學思考的方式感到擔憂,因為這些模型是根據過去的已有信息進行訓練的,而社會和科學的進步往往來自與過去不同的思維或開放思維。
因此,這篇預印本論文作者建議,那些評估研究論文和學術會議紀錄的人,應當制定政策,杜絕使用人工智能來生成文本。如果允許在某些情況下使用這些技術,應當建立明確的規則,並披露具體使用情況。
據悉,將於今年7月在夏威夷舉行的第40屆國際機器學習大會,將會宣佈禁止使用ChatGPT和其他AI語言工具撰寫論文。
在虛假信息可能危及人類安全的領域,例如醫學領域,醫學學術期刊應當採取更嚴格的方法來驗證信息的準確性。
普林斯頓大學的計算機科學家 Arvind Narayanan 表示,任何嚴肅的科學家都不太可能使用ChatGPT來生成論文摘要,使用ChatGPT的好處是微乎其微,而缺點是顯著的。解決使用ChatGPT來編造論文這一問題的方案不應該聚焦在ChatGPT工具本身,而應該聚焦在導致這種行為的動機上,比如有些大學在招聘和晉升審核時,只看論文數量,而不考慮論文的質量或影響力。
深喉
** 博客文章文責自負,不代表本公司立場 **