U乐国际(中国)·集团 - 斯坦福大学研究发现，AI 聊天机器人 ChatGPT 的表现很不稳定

斯坦福大学的一项新研讨发现，抢手生成式人工智能（AI）谈天机器人 ChatGPT 的才能在几个月内有所动摇。

斯坦福大学的团队评价了 ChatGPT 在几个月内怎么处理不同的使命。他们发现，ChatGPT 的才能随时刻的推移而呈现了不一致。现在，ChatGPT 有两个版别——免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版别。研讨人员发现，GPT-4 在 3 月份可以有效地处理数学问题，辨认质数的精确率为 97.6%。三个月后，其精确率下降到了 2.4%。而另一方面，GPT-3.5 却变得更好，从 7.4% 的精确率进步到了 86.8%。

研讨人员还注意到，在编写代码和视觉推理方面也有相似的动摇。斯坦福大学计算机科学教授 James Zou 称：“当咱们调整一个大型言语模型来进步它在某些使命上的体现时，那或许会有许多意想不到的成果，或许会危害这个模型在其他使命上的体现…… 这个模型答复问题的方法有各式各样的彼此依赖性，这或许导致咱们调查到的一些恶化行为。”

研讨人员以为，成果并不能真实反映 ChatGPT 功能的精确性状况，而是显现了微调模型带来的意外成果。本质上，当修正模型的一部分来改进一个使命时，其他使命或许会受到影响。为什么会这样很难确认，因为没有人知道 ChatGPT 是怎么运作的，并且它的代码也不是开源的。

跟着时刻的推移，研讨人员注意到，ChatGPT 的答复不只变得不太精确，并且还中止了解说其推理进程。

因为 ChatGPT 的运作方法，要研讨和衡量它的体现或许很困难，这项研讨强调了调查和评价驱动 ChatGPT 等东西的大型言语模型（LLM）功能改变的必要性。该研讨已经在 arXiv 上发布，并正在等候同行评定。

via

IT之家

新闻详情