ChatGPT变笨 使用量骤减

0
19
图片来源: Adobe stock

(看中国记者程帆编译综合报导)近来越来越多ChatGPT的用户反馈,新的基于OpenAI第四代生成式语言模型(GPT-4)聊天机器人明显智力变低。特别在处理数学问题方面的能力可谓「雪崩式」狂跌,从三月版97.6%的准确度到六月只剩下可怜的2.4%。

与此同时,ChatGPT全球流量也首度出现下滑!数据公司SimilarWeb统计结果显示,5至6月全球流量下降9.7%,独立访客也减少了5.7%,而人们在ChatGPT网站上停留的时间也跌了8.5%。

为此,史丹佛生物医学数据科学副教授James Zou、加利福尼亚大学伯克利分校的柏克莱计算机科学教授Matei Zaharia及该校另两位研究员,专门调查了3月至6月期间ChatGPT的性能。

上月出炉的最终调查结论是:GPT-4性能的确变糟了。脑白质或被切除?

据《经济时报》(The Economic Times)和科学新闻网(Futurism)的报导,本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力,即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。

​​在数学问题上,今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月,更新版在同一任务上的表现却异常糟糕(仅为2.4%),并且忽略了连贯的思考Prompt(一种提示,帮助AI系统回忆起自己在预训练时学习到的东西)。这将意味着,在整个工作流程中,一旦模型对某个Prompt的响应突然发生变化(比如准确度或格式),就很可能会破坏需要完成的具体指令。

在敏感问题测试中,研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集,并手动标记了所有回复。结果发现,GPT-4变得更加安全,但缺乏拒答理由。

GPT-4在直接回复敏感问题的比例从21.0%降到5.0%,而GPT-3.5的比例从2.0%上升到8.0%。此外,GPT-4回复的文本长度也从600多字降到约140字。

在代码生成测试中,研究者创建了新的代码生成数据集,包括最新的50个LeetCode「容易」问题。最后显示,生成的代码更冗长但可直接执行的代码更少。3月份,GPT-4认为超过50%是「可直接执行」的,但6月份仅剩下了10%。

在视觉推理能力检测中,GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低:GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

不过,对于GPT-4「智商下降」,学术界有观点称,如果要让GPT-4变的更听从人类的指挥且符合人类价值观,它自身能力会变差。

换句话说,人类的「强硬教化」相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态,以便于管理。

Christi Kennedy发文写道,GPT-4不断重复循环输出程式码和其他讯息,「与以前相比,这简直是脑死!」

她补充道,「如果你没有运用它以前的功能,你就不会注意到。但你要想真正充分使用它的一些功能,你会发现它明显更愚蠢了。」

来源:看中国