ChatGPT變笨使用量驟減

2023-08-06

A business man standing in front of an AI robot, representing th — 圖片来源: Adobe stock

（看中國記者程帆編譯綜合報導）近來越來越多ChatGPT的用戶反饋，新的基於OpenAI第四代生成式語言模型(GPT-4)聊天機器人明顯智力變低。特別在處理數學問題方面的能力可謂「雪崩式」狂跌，從三月版97.6%的準確度到六月只剩下可憐的2.4%。

與此同時，ChatGPT全球流量也首度出現下滑！數據公司SimilarWeb統計結果顯示，5至6月全球流量下降9.7%，獨立訪客也減少了5.7%，而人們在ChatGPT網站上停留的時間也跌了8.5%。

為此，史丹佛生物醫學數據科學副教授James Zou、加利福尼亞大學伯克利分校的柏克萊計算機科學教授Matei Zaharia及該校另兩位研究員，專門調查了3月至6月期間ChatGPT的性能。

上月出爐的最終調查結論是：GPT-4性能的確變糟了。腦白質或被切除？

據《經濟時報》(The Economic Times)和科學新聞網(Futurism)的報導，本次主要比較了GPT3.5和GPT-4兩個模型版本的四種能力，即數學問題、敏感/危險問題、代碼/寫程式能力和視覺推理能力。

在數學問題上，今年3月的GPT-4版識別質數的準確率可達到97.6%。但到了6月，更新版在同一任務上的表現卻異常糟糕(僅為2.4%)，並且忽略了連貫的思考Prompt(一種提示，幫助AI系統回憶起自己在預訓練時學習到的東西)。這將意味著，在整個工作流程中，一旦模型對某個Prompt的響應突然發生變化(比如準確度或格式)，就很可能會破壞需要完成的具體指令。

在敏感問題測試中，研究者創建了一個包含100個不應由大模型直接回答的敏感問題的數據集，並手動標記了所有回覆。結果發現，GPT-4變得更加安全，但缺乏拒答理由。

GPT-4在直接回覆敏感問題的比例從21.0%降到5.0%，而GPT-3.5的比例從2.0%上升到8.0%。此外，GPT-4回覆的文本長度也從600多字降到約140字。

在代碼生成測試中，研究者創建了新的代碼生成數據集，包括最新的50個LeetCode「容易」問題。最後顯示，生成的代碼更冗長但可直接執行的代碼更少。3月份，GPT-4認為超過50%是「可直接執行」的，但6月份僅剩下了10%。

在視覺推理能力檢測中，GPT-4和GPT-3.5的性能提升都很小。服務的整體性能也很低：GPT-4準確率為27.4%、GPT-3.5準確率為12.2%。

不過，對於GPT-4「智商下降」，學術界有觀點稱，如果要讓GPT-4變的更聽從人類的指揮且符合人類價值觀，它自身能力會變差。

換句話說，人類的「強硬教化」相當於把GPT-4的腦白質切除。這就像是破壞精神病人腦組織使其陷入痴呆狀態，以便於管理。

Christi Kennedy發文寫道，GPT-4不斷重複循環輸出程式碼和其他訊息，「與以前相比，這簡直是腦死！」

她補充道，「如果你沒有運用它以前的功能，你就不會注意到。但你要想真正充分使用它的一些功能，你會發現它明顯更愚蠢了。」

来源:看中國

上月出爐的最終調查結論是：GPT-4性能的確變糟了。腦白質或被切除？

最热文章

最新文章