新闻详情

斯坦福大学研究发现,AI 聊天机器人 ChatGPT 的表现很不稳定

斯坦福大学的一项新研讨发现,抢手生成式人工智能(AI)谈天机器人 ChatGPT 的才能在几个月内有所动摇。

斯坦福大学的团队评价了 ChatGPT 在几个月内怎么处理不同的使命。他们发现,ChatGPT 的才能随时刻的推移而呈现了不一致。现在,ChatGPT 有两个版别——免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版别。 研讨人员发现,GPT-4 在 3 月份可以有效地处理数学问题,辨认质数的精确率为 97.6%。三个月后,其精确率下降到了 2.4%。而另一方面,GPT-3.5 却变得更好,从 7.4% 的精确率进步到了 86.8%。

研讨人员还注意到,在编写代码和视觉推理方面也有相似的动摇。斯坦福大学计算机科学教授 James Zou 称:“当咱们调整一个大型言语模型来进步它在某些使命上的体现时,那或许会有许多意想不到的成果,或许会危害这个模型在其他使命上的体现…… 这个模型答复问题的方法有各式各样的彼此依赖性,这或许导致咱们调查到的一些恶化行为。”

研讨人员以为,成果并不能真实反映 ChatGPT 功能的精确性状况,而是显现了微调模型带来的意外成果。本质上,当修正模型的一部分来改进一个使命时,其他使命或许会受到影响。为什么会这样很难确认,因为没有人知道 ChatGPT 是怎么运作的,并且它的代码也不是开源的。

跟着时刻的推移,研讨人员注意到,ChatGPT 的答复不只变得不太精确,并且还中止了解说其推理进程。

因为 ChatGPT 的运作方法,要研讨和衡量它的体现或许很困难,这项研讨强调了调查和评价驱动 ChatGPT 等东西的大型言语模型(LLM)功能改变的必要性。该研讨已经在 arXiv 上发布,并正在等候同行评定。

via

IT之家

← 返回新闻列表