ChatGPT变笨使用量骤减

2023-08-06

A business man standing in front of an AI robot, representing th — 图片来源: Adobe stock

（看中国记者程帆编译综合报导）近来越来越多ChatGPT的用户反馈，新的基于OpenAI第四代生成式语言模型(GPT-4)聊天机器人明显智力变低。特别在处理数学问题方面的能力可谓「雪崩式」狂跌，从三月版97.6%的准确度到六月只剩下可怜的2.4%。

与此同时，ChatGPT全球流量也首度出现下滑！数据公司SimilarWeb统计结果显示，5至6月全球流量下降9.7%，独立访客也减少了5.7%，而人们在ChatGPT网站上停留的时间也跌了8.5%。

为此，史丹佛生物医学数据科学副教授James Zou、加利福尼亚大学伯克利分校的柏克莱计算机科学教授Matei Zaharia及该校另两位研究员，专门调查了3月至6月期间ChatGPT的性能。

上月出炉的最终调查结论是：GPT-4性能的确变糟了。脑白质或被切除？

据《经济时报》(The Economic Times)和科学新闻网(Futurism)的报导，本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力，即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。

在数学问题上，今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月，更新版在同一任务上的表现却异常糟糕(仅为2.4%)，并且忽略了连贯的思考Prompt(一种提示，帮助AI系统回忆起自己在预训练时学习到的东西)。这将意味着，在整个工作流程中，一旦模型对某个Prompt的响应突然发生变化(比如准确度或格式)，就很可能会破坏需要完成的具体指令。

在敏感问题测试中，研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集，并手动标记了所有回复。结果发现，GPT-4变得更加安全，但缺乏拒答理由。

GPT-4在直接回复敏感问题的比例从21.0%降到5.0%，而GPT-3.5的比例从2.0%上升到8.0%。此外，GPT-4回复的文本长度也从600多字降到约140字。

在代码生成测试中，研究者创建了新的代码生成数据集，包括最新的50个LeetCode「容易」问题。最后显示，生成的代码更冗长但可直接执行的代码更少。3月份，GPT-4认为超过50%是「可直接执行」的，但6月份仅剩下了10%。

在视觉推理能力检测中，GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低：GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

不过，对于GPT-4「智商下降」，学术界有观点称，如果要让GPT-4变的更听从人类的指挥且符合人类价值观，它自身能力会变差。

换句话说，人类的「强硬教化」相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态，以便于管理。

Christi Kennedy发文写道，GPT-4不断重复循环输出程式码和其他讯息，「与以前相比，这简直是脑死！」

她补充道，「如果你没有运用它以前的功能，你就不会注意到。但你要想真正充分使用它的一些功能，你会发现它明显更愚蠢了。」

来源:看中国

上月出炉的最终调查结论是：GPT-4性能的确变糟了。脑白质或被切除？

最热文章

最新文章