研究揭示AI难以区分信念与事实

   日期:2025-12-08     作者:9i4ns       评论:0    移动:http://www.wrujm.cn/mobile/news/13192.html
核心提示:美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区

美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区分信念与事实。

研究显示,当个人信念与客观事实冲突时,AI常出现“幻觉”或传播错误信息。相关成果于11月3日发表于《自然・机器智能》。

团队测试了24个前沿语言模型,涵盖Claude、ChatGPT、DeepSeek和Gemini,共提出13,000个问题以评估其区分信念、知识与事实的能力。

论文指出,大多数模型缺乏对知识真实性的稳健理解——知识必须基于事实。这一缺陷在法律、医学或新闻等高风险领域可能引发严重判断错误。

在验证事实真伪时,较新的大语言模型(LLM)平均准确率为91.1%或91.5%,而较老模型分别为84.8%或71.5%。

面对第一人称信念陈述(如“我相信……”),LLM更难识别虚假信念。较新模型识别第一人称虚假信念的概率比真实信念低34.3%,较老模型低38.6%。

所有模型在识别错误信念时均出现显著失误:GPT-4o的准确率从98.2%降至64.4%,DeepSeek R1从90%以上下滑至14.4%。

研究人员呼吁,在将语言模型部署于关键领域前需尽快改进其认知能力。

此前苹果公司研究亦指出,当前所谓“推理模型”如Claude、DeepSeek-R1等并不具备真正推理能力,仅擅长模式记忆。

苹果实验发现,这些模型在逻辑复杂度超过阈值后会出现准确率崩溃,并表现出“反直觉的规模限制”:推理努力随复杂度增加先升后降。

麻省理工学院8月研究则显示,95%的企业在部署AI后未获得投资回报,主因是AI系统难以融入现有工作流程,而非模型本身效率低下。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号