分享好友 最新资讯首页 最新资讯分类 切换频道
别让大模型想太多了,过度思考会影响性能
2025-03-28 08:49

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

加州大学伯克利分校、苏黎世联邦理工学院等多所高校的研究人员,深入剖析了大模型在执行Agent任务时面临的困境 ——过度思考。

为了量化这种行为,研究人员开发了一套系统评估框架,并通过4018条轨迹分析发现,高推理努力配置的模型虽然解决了29.1%的问题,但成本高达1400美元;而低推理努力配置则以3.5倍更低的成本达到了21.0%的成功率。

此外,生成两个低推理解决方案并选择其中一个具有较低过度思考得分的方法,实现了27.3%的解决率,同时减少了43%的计算成本。这表明减轻过度思考不仅提高了推理效率,还显著降低了成本。

图片

开源地址:https://github.com/AlexCuadron/ThinkingAgent

过度思考是指,大模型过度依赖内部推理,而忽视了从环境中获取或整合关键反馈的倾向。即使在资源不受限制的情况下,这种过度依赖内部推理的模型仍然会受到其不完整或不准确的世界模型的限制,从而导致错误的累积和决策能力的下降。

为了深入研究这种现象,研究人员通过分析智能体与环境之间的交互过程,识别出三种过度思考的典型表现模式。

首先是“分析瘫痪”(Analysis Paralysis),在这种情况下,模型过度专注于未来的规划,而忽视了当前环境中的实际进展。它们会生成越来越复杂的行动序列,但却难以系统地执行这些计划,从而陷入无休止的规划循环中。

图片

其次是“鲁莽行动”(Rogue Actions),在这种模式下,模型在面对错误时会尝试同时执行多个相互依赖的行动,而没有等待环境对前一个行动的反馈,模型试图用内部模拟来替代真实的环境反馈。

最后是“过早脱离”(PrematureDisengagement),在这种情况下,模型基于内部对问题空间的模拟而终止任务,而不是根据环境反馈来验证解决方案的有效性。这种过度依赖内部推理的行为可能导致模型在没有验证的情况下就放弃任务,或者错误地认为问题无法解决。

为了量化过度思考行为,研究团队开发了一种系统化的评分方法,使用大模型作为评判标准。该方法通过分析模型轨迹,识别出上述三种过度思考模式,并给出0到10分的评分,分数越高表示过度思考越严重。每个评分都附有详细的理由,解释所识别的模式及其严重程度。完整的评估提示和评分标准可以在附录A中找到。

图片

为了验证自动化评估方法的可靠性,研究人员邀请了四位专家手动评定了20个随机选择的模型轨迹。通过标准化评分,研究团队进行了全面的统计分析,探究过度思考行为与模型性能的关系,以及过度思考对推理模型和非推理模型的不同影响。

结果显示,推理模型的过度思考得分显著高于非推理模型,且两者之间的相关性非常强,证实了自动评估方法的可靠性。

此外,研究团队设计了一个系统化评估轨迹的提示,避免使用“过度思考”一词以防止模型偏向自身定义。该提示围绕过度思考的三种表现形式展开,即分析瘫痪、鲁莽行为和过早脱离,并强调偏好内部推理链而非环境互动。

图片

评分系统分为三档:0-3分表示适当的环境互动,4-7分表示偶尔过度依赖内部推理,8-10分则表示完全脱离环境反馈。

通过提供具体的例子,如模型得0分时会持续重试类似配置并在每次尝试间等待反馈,而得10分时会生成多个互依动作而不等待环境响应,或基于内部推理提前结束任务,确保评分标准的透明和一致。

实验结果表明,过度思考评分与任务解决率呈现出显著的负相关性。推理模型的过度思考评分越高,其在软件工程任务中的表现越差。这一趋势在非推理模型中也得到了体现,但其下降速度更快。例如,推理模型的趋势线斜率为-7.894,而非推理模型的趋势线斜率达到了-15.938。

在模型类型与过度思考的关系方面,作者们发现推理模型的过度思考倾向明显高于非推理模型。实验数据显示,推理模型的平均过度思考评分为3.505,而非推理模型的平均评分为2.228。这种倾向可能是由于推理模型在训练过程中被优化为生成更长的推理链,从而在面对需要频繁与环境互动的任务时,表现出更高的过度思考倾向。

此外,还研究了模型规模对过度思考的影响。实验结果表明,模型规模与过度思考评分之间存在负相关性。较小的模型,如7B和14B参数的模型在交互式任务中表现出更高的过度思考倾向,而较大的模型如671B参数的模型则相对较低。这一现象可能与模型的复杂性和对环境反馈的处理能力有关。

最新文章
游戏比赛,没人看了?
作者|小冬2001年,在韩国汉城会展大厅举办的首届世界电子竞技大赛(WCG),吸引了来自37个国家与地区的430名参赛者。在《星际争
空天信息产业版图基本拼全!看济南的“星箭双造”能力|卫星|航天|火箭|遥感_网易新闻
近日,济南商业航天领域动作频频。第八届中国(济南)新动能创新创业大赛上,济南发起设立总规模50亿元空天信息产业基金;山东省商
龙川又添休闲娱乐新地标,多元活动引得人气“爆棚”!|湿地公园|东江|川东|乡村_网易新闻
当前正是出游踏青、拥抱自然的绝佳时节龙川东江湿地公园星空营地正以全新面貌迎接八方游客该公园凭借其得天独厚的地理位置丰富多
NBA单场35分!戴维斯有望登陆CBA!_腾讯新闻
近日,CBA转会市场传来重磅消息:前NBA萨克拉门托国王队得分后卫特伦斯·戴维斯二世(Terence Davis II)的经纪人已正式向多支CB
NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级_腾讯新闻
2025 年是 PC 端 AI 发展的突破之年。PC 级小语言模型 (SLM) 的准确率相比 2024 年提高近 2 倍,显著缩小与前沿云端大语言模型 (
有望被险资关注的高股息板块
当保险行业全面迈向新会计准则,一个看似晦涩的科目FVOCI,正悄然改写险资的资产配置逻辑。在新准则下,保险公司若将股票划分为F
全面盘活“阴间文化”,网易这步棋太妙了_腾讯新闻
在中国,涉及鬼怪的话题总是被人禁忌,又让人充满好奇。这种好奇突破了时间的枷锁,从一千多年前的《搜神记》到清朝的《聊斋志异
寰行盛世香港专才怎么样?靠谱吗?2025最后窗口期助你弯道超车!|签证|永居|入境处_网易新闻
香港专才计划正以"低门槛、高通过率、全家受益"三大优势,成为内地职场精英突破职业瓶颈的关键路径。作为香港入境处认证的专业机
优秀案例|工商银行:企业管家云赋能企业数字化转型_腾讯新闻
编者按自2022年案例库启动以来,中关村互联网金融研究院已收录全国300+金融科技标杆实践,覆盖人工智能、区块链、大数据等前沿技
2026 年 1 月床垫品牌测评:保护脊椎 + 改善睡眠浅 中外中高端主卧床推荐_腾讯新闻
中国睡眠研究会《2026 中国睡眠健康白皮书》显示,超 75% 成年人存在睡眠不好、睡眠浅或睡眠质量差的问题,其中 68% 明确表示床