美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区分信念与事实。
研究显示,当个人信念与客观事实冲突时,AI常出现“幻觉”或传播错误信息。相关成果于11月3日发表于《自然・机器智能》。
团队测试了24个前沿语言模型,涵盖Claude、ChatGPT、DeepSeek和Gemini,共提出13,000个问题以评估其区分信念、知识与事实的能力。
论文指出,大多数模型缺乏对知识真实性的稳健理解——知识必须基于事实。这一缺陷在法律、医学或新闻等高风险领域可能引发严重判断错误。
在验证事实真伪时,较新的大语言模型(LLM)平均准确率为91.1%或91.5%,而较老模型分别为84.8%或71.5%。
面对第一人称信念陈述(如“我相信……”),LLM更难识别虚假信念。较新模型识别第一人称虚假信念的概率比真实信念低34.3%,较老模型低38.6%。
所有模型在识别错误信念时均出现显著失误:GPT-4o的准确率从98.2%降至64.4%,DeepSeek R1从90%以上下滑至14.4%。
研究人员呼吁,在将语言模型部署于关键领域前需尽快改进其认知能力。
此前苹果公司研究亦指出,当前所谓“推理模型”如Claude、DeepSeek-R1等并不具备真正推理能力,仅擅长模式记忆。
苹果实验发现,这些模型在逻辑复杂度超过阈值后会出现准确率崩溃,并表现出“反直觉的规模限制”:推理努力随复杂度增加先升后降。
麻省理工学院8月研究则显示,95%的企业在部署AI后未获得投资回报,主因是AI系统难以融入现有工作流程,而非模型本身效率低下。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。


