研究揭示AI难以区分信念与事实

日期：2025-12-08 作者：9i4ns 评论：0 移动：http://www.wrujm.cn/mobile/news/13192.html

核心提示：美国斯坦福大学近日发表的一项研究表明，包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性，无法可靠区

美国斯坦福大学近日发表的一项研究表明，包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性，无法可靠区分信念与事实。

研究显示，当个人信念与客观事实冲突时，AI常出现“幻觉”或传播错误信息。相关成果于11月3日发表于《自然・机器智能》。

团队测试了24个前沿语言模型，涵盖Claude、ChatGPT、DeepSeek和Gemini，共提出13,000个问题以评估其区分信念、知识与事实的能力。

论文指出，大多数模型缺乏对知识真实性的稳健理解——知识必须基于事实。这一缺陷在法律、医学或新闻等高风险领域可能引发严重判断错误。

在验证事实真伪时，较新的大语言模型（LLM）平均准确率为91.1%或91.5%，而较老模型分别为84.8%或71.5%。

面对第一人称信念陈述（如“我相信……”），LLM更难识别虚假信念。较新模型识别第一人称虚假信念的概率比真实信念低34.3%，较老模型低38.6%。

所有模型在识别错误信念时均出现显著失误：GPT-4o的准确率从98.2%降至64.4%，DeepSeek R1从90%以上下滑至14.4%。

研究人员呼吁，在将语言模型部署于关键领域前需尽快改进其认知能力。

此前苹果公司研究亦指出，当前所谓“推理模型”如Claude、DeepSeek-R1等并不具备真正推理能力，仅擅长模式记忆。

苹果实验发现，这些模型在逻辑复杂度超过阈值后会出现准确率崩溃，并表现出“反直觉的规模限制”：推理努力随复杂度增加先升后降。

麻省理工学院8月研究则显示，95%的企业在部署AI后未获得投资回报，主因是AI系统难以融入现有工作流程，而非模型本身效率低下。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

克而瑞地产：2月土地	泡沫与崩溃中的财富转
手机圈年末大戏，小米	北京号最精彩｜第四使

最新资讯

点击排行