分享好友 最新资讯首页 最新资讯分类 切换频道
研究揭示AI难以区分信念与事实
2025-12-08 13:00

美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区分信念与事实。

研究显示,当个人信念与客观事实冲突时,AI常出现“幻觉”或传播错误信息。相关成果于11月3日发表于《自然・机器智能》。

团队测试了24个前沿语言模型,涵盖Claude、ChatGPT、DeepSeek和Gemini,共提出13,000个问题以评估其区分信念、知识与事实的能力。

论文指出,大多数模型缺乏对知识真实性的稳健理解——知识必须基于事实。这一缺陷在法律、医学或新闻等高风险领域可能引发严重判断错误。

在验证事实真伪时,较新的大语言模型(LLM)平均准确率为91.1%或91.5%,而较老模型分别为84.8%或71.5%。

面对第一人称信念陈述(如“我相信……”),LLM更难识别虚假信念。较新模型识别第一人称虚假信念的概率比真实信念低34.3%,较老模型低38.6%。

所有模型在识别错误信念时均出现显著失误:GPT-4o的准确率从98.2%降至64.4%,DeepSeek R1从90%以上下滑至14.4%。

研究人员呼吁,在将语言模型部署于关键领域前需尽快改进其认知能力。

此前苹果公司研究亦指出,当前所谓“推理模型”如Claude、DeepSeek-R1等并不具备真正推理能力,仅擅长模式记忆。

苹果实验发现,这些模型在逻辑复杂度超过阈值后会出现准确率崩溃,并表现出“反直觉的规模限制”:推理努力随复杂度增加先升后降。

麻省理工学院8月研究则显示,95%的企业在部署AI后未获得投资回报,主因是AI系统难以融入现有工作流程,而非模型本身效率低下。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
沪苏湖高铁旅游推荐第二站:湖州东站!
沪苏湖高铁旅游推荐杭州西站—上海虹桥站自杭州西站枢纽开通运营以来很多旅客都在期待杭州西站开通到上海的高铁如今,随着沪苏湖
《上甘岭》收视率破纪录!全民追剧缔造年度剧王!期待大结局!
今年终于出了一部让我想一口气追到底的剧,而且现在全民追看期待大结局,就是《》。虽然是电视剧,但是却拍出了电影质感,既展现
AI写作助手革新新闻稿制作:一键生成、智能优化,全方位提升写作效率与质量-2024ai学习
AI写作助手革新新闻稿制作:一键生成、智能优化,全方位提升写作效率与质量1000字右文章摘要:随着人工智能技术的飞速发展写作助
原创突发特讯!英国首相发表涉华言论,少见措辞引发国际舆论
司法终章:戳破政治泡沫,无证“间谍狂欢”落幕当英国皇家检察署最终以“证据不足”为由,撤销了备受瞩目的“中国间谍”案,这场
通山:战“高”温 迎“烤”验 咸九高速项目建设进入快车道
 本网讯(全媒体记者 王贤波  实习记者  郭微)近日,我县最高气温可达37℃,路测的地表温度最高达40℃以上。在高温炎热下,
范其华紫砂壶作品欣赏_聚荣网
(文道出品,皆是精品)公司位于宜兴丁蜀镇,跟名家范其华直接合作(您的需要就是我们的实力)范其华老师简介;范其华高级工艺美
研究揭示AI难以区分信念与事实
美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区
利好利空晚报|中共中央、国务院发文!加快建设农业强国;一季报预增股批量出炉
周一晚间,市场聚焦哪些新闻?一起来和自选哥看看吧:中共中央、国务院发文!加快建设农业强国;一季报预增股批量出炉。首先,一
酷睿Ultra 200S的强力搭档,ROG STRIX B860-F GAMING WIFI主板测评
随着Intel酷睿Ultra 200S系列的非K处理器在CES 2025上登场,各大主板厂商同步推出了搭载B860芯片组的主流级主板。作为Intel重要
深圳佳德瑞机械有限公司
我是深圳佳德瑞机械有限公司的张先生,联系地址是深圳市罗湖区文锦中路联兴大厦北座12楼1201室,我们公司是在广东深圳的国有公司,