分享好友 最新资讯首页 最新资讯分类 切换频道
研究揭示AI难以区分信念与事实
2025-12-08 13:00

美国斯坦福大学近日发表的一项研究表明,包括ChatGPT在内的多款AI聊天机器人在识别用户错误信念方面存在明显局限性,无法可靠区分信念与事实。

研究显示,当个人信念与客观事实冲突时,AI常出现“幻觉”或传播错误信息。相关成果于11月3日发表于《自然・机器智能》。

团队测试了24个前沿语言模型,涵盖Claude、ChatGPT、DeepSeek和Gemini,共提出13,000个问题以评估其区分信念、知识与事实的能力。

论文指出,大多数模型缺乏对知识真实性的稳健理解——知识必须基于事实。这一缺陷在法律、医学或新闻等高风险领域可能引发严重判断错误。

在验证事实真伪时,较新的大语言模型(LLM)平均准确率为91.1%或91.5%,而较老模型分别为84.8%或71.5%。

面对第一人称信念陈述(如“我相信……”),LLM更难识别虚假信念。较新模型识别第一人称虚假信念的概率比真实信念低34.3%,较老模型低38.6%。

所有模型在识别错误信念时均出现显著失误:GPT-4o的准确率从98.2%降至64.4%,DeepSeek R1从90%以上下滑至14.4%。

研究人员呼吁,在将语言模型部署于关键领域前需尽快改进其认知能力。

此前苹果公司研究亦指出,当前所谓“推理模型”如Claude、DeepSeek-R1等并不具备真正推理能力,仅擅长模式记忆。

苹果实验发现,这些模型在逻辑复杂度超过阈值后会出现准确率崩溃,并表现出“反直觉的规模限制”:推理努力随复杂度增加先升后降。

麻省理工学院8月研究则显示,95%的企业在部署AI后未获得投资回报,主因是AI系统难以融入现有工作流程,而非模型本身效率低下。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
克而瑞地产:2月土地成交平均溢价率达13.4% 上半年土拍热度有望延续_腾讯新闻
智通财经APP获悉,克而瑞地产发文称,2025年2月,受季节性因素和降库存目标影响,土地成交面积同环比持续回落,但北京、上海、杭
普宁数控刀片回收
,联系电话:曾生 QQ公司交易便捷,长期面向各模具厂,五金加工厂,机械加工厂,模胚厂,不分生产厂家 个人,销售,加工,只要是
睡不好的背后藏着一个千亿财富风口 — 曾国堂草本助眠凝胶招商加盟启动|口服药|失眠者|副作用_网易新闻
当 “凌晨三点还在刷手机” 成为当代人的常态,失眠早已不是个体困扰,而是席卷3.5亿人的社会问题。数据显示,我国睡眠经济规模
双节超长假期 多重利好加持!达城电影、汽车、餐饮市场乐享“黄金周”狂欢|美食_网易新闻
今年国庆与中秋双节交织,八天长假遇上“川超”联赛激战正酣,加之巴山大峡谷冲刺5A级景区的关键节点,多重利好在达州碰撞共振。
官宣!大连英博旧将加盟巴乙劲旅,合同签至2026年12月_腾讯新闻
北京时间1月11日,巴乙俱乐部阿瓦伊公开宣布:27岁的巴西中场丹尼尔·佩尼亚正式加盟球队:“27岁的丹尼尔·佩尼亚成为阿瓦伊新
CES2026:双轮驱动出海,思必驰让中国AI创新成果惠及世界
当地时间1月6日,2026年国际消费电子展(CES 2026)在美国拉斯维加斯开幕,这场全球科技产业的年度盛会,成为中国AI技术走向世界
中国工商银行内蒙古分行 倾力助推北疆民企高质量发展 彰显国有大行使命担当|工行|金融_网易新闻
作为服务实体经济的领军银行,中国工商银行内蒙古分行始终将支持民营经济发展作为重要战略方向。紧跟国家及自治区政策导向,以"
金价跌超40元!“黄金巨震”冲上热搜,商家:金条断货需预订锁价,工厂正连夜赶货_腾讯新闻
在经历大涨后,4月23日国际、国内金价开始大幅走低。“黄金巨震”“现货黄金跌破3300美元/盎司”等金价震荡的相关话题也冲上热搜
构建品质价值·共创健康新质 安徽超市行业供应链大会暨百大集团超市业态新起点发布会盛大启幕|合肥市商务局_网易新闻
2025年8月15日下午,由安徽省商务厅、合肥市商务局指导,合肥百大集团主办,百大合家福公司承办的“安徽超市行业供应链大会暨百
枣元头小学三年级开展语文教研活动|教学|教师|语文老师_网易新闻
冬已至, 寒意起。萧瑟的寒风阻挡不住语文老师的教研热情。为进一步提高语文教师队伍的专业素养和教学能力, 落实新课标核心素养,