8B模型超越GPT-4o！通义实验室提出多轮对齐SDPO，让LLM更擅长多轮交互

8B模型超越GPT-4o！通义实验室提出多轮对齐SDPO，让LLM更擅长多轮交互

2025-02-03 18:14

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让 8B 模型在多轮对话上超过 GPT-4o！

在 LLM 的训练过程中，如何保持 LLM 与人类的价值观对齐是一个至关重要的问题，然而当前的对齐方法在训练时都只考虑当前轮生成的回复的收益，而不会考虑当前动作后后续多轮可能动作的影响，这一问题导致大模型在多轮交互中难以考虑后续的对话策略或行动轨迹。

之前的工作有过一些任务级对齐的尝试，但是存在粒度太粗和理论推导不完善的问题。在本文中，我们在之前工作的基础上，进一步简化并完善了多轮直接偏好对齐的理论推导过程，并提出了可以适应不同轮次的多轮对齐 SDPO（Segment-level DPO）目标函数。

我们首先在社交对话数据集 SOTOPIA 上进行了验证，发现 SDPO 可以显著超过直接偏好对齐 DPO（+6.1%），基于 8B 模型经过 SFT 和 SDPO 后效果超过 GPT-4o（8.56 vs. 7.90），后续还可以拓展到其他多轮任务中。

论文标题：

SDPO: Segment-Level Direct Preference Optimization for Social Agents

论文作者：

马文涛、孔奥博、武玉川、黄非，李永彬

论文地址：

https://arxiv.org/pdf/2501.01821

代码地址：

https://huggingface.co/datasets/Tongyi-ConvAI/SDPO

论文公开后即登录 2025-01-06 HuggingFace DailyPaper 并被多人点赞，为了便于业界大家使用，代码直接基于 LLama-Factory 进行开源。

2.1 直接偏好对齐

目前直接偏好对齐 DPO [1] 已经在大模型 Alignment 训练中广泛使用，与传统基于强化学习的偏好对齐（如RLHF，Reinforcement Learning from Human Feedback）相比，DPO 通过直接优化模型以符合人类偏好，简化了对齐过程，提高了效率和稳定性。其训练的损失函数如下：

其中和分别为偏好数据的正负例，在多轮任务如多轮对话中，二者分别对标同一个对话上下文下的正例和负例回复，但是在多轮对话中，最终的结果往往是需要多个轮次共同作用，标准的 DPO 主要关注当前轮次的回复偏好也就限制了其在多轮任务上的效果。

2.2 任务级偏好对齐

为了引入更长轮次的偏好信号，有学者相继提出了 ETO [2] 和 DMPO [3]，二者的核心都是将上述单轮的偏好提升到整个任务粒度，将完成任务的正负例对应的整个轨迹作为正负例偏好数据。其中 DMPO（Direct Multi-Turn Preference Optimization）给出了这类任务级对齐的理论推导与损失函数，具体如下：

其中 log 之前函数是为了解决轮数不对称所引入的长度正则。对比 DPO 的损失函数我们可以发现，DMPO 这类任务级对齐方法增加了轮次级的求和，求和的范围完成整个任务所需要的交互轮次，因此 loss 中的和分别是正例轨迹和负例轨迹的总轮数，这里正负例轨迹一般对应完成任务和未完成任务的轨迹。

由于完成一个任务或者进行多轮对话往往需要很多轮次的交互，这里直接进行整个任务级别对齐粒度较粗，对应存在两个问题：

1. 训练噪声大：负例中有些没错的轮次被当成了错误轮次参与了 loss 的计算，同时正例中也存在不合适的轮次，因此整个训练噪声较大；

2. 正向信号弱：从头采样给予了模型过大的行为空间，这种过大的空间导致正例的信号很不明确。另外，部分正例结果较好可能是环境不同的反馈导致的，跟 LLM/Agent 的本身的动作关系不大，这些导致模型可能很难得到明确的正例信号。

为了解决以上问题，我们提出了可以适应不同轮次的多轮对齐方法 SDPO（Segment-level Direct Preference Optimization），基于严格推导出 Segment 粒度损失函数，按需构建出所需轮数的偏好数据，可以支持从 1 到 N（N 为整个交互轮次）动态轮数的对齐。

3.1 SDPO 损失函数

回顾一下 DMPO 中多轮对齐 Loss 推导过程，通过 Bradley-Terry（BT）模型构建出的多轮 Reward 函数如下：

其中，r(s, a) 展开如下：

我们可以发现，如果正负例的轮数不对称，也就是说当不等于时，分区函数部分 logZ 就无法被抵消掉，也就无法推导出最终的损失函数，因此 DMPO 中引入了长度正则函数来解决这个问题。

然而，我们发现这种长度正则会引入额外的假设缺乏严格的理论支撑，同时增加计算的复杂度。我们在实践中发现，在多轮交互正负例的核心轮次往往并不多，而且在正负例中核心轮数往往相同或者很相近。因此，我们提出了基于正负例轮数对称的 SDPO 损失函数：

相对 DMPO 的损失函数，SDPO 的损失函数去掉了长度正则显著简化了计算，同时不再要求从对话开始到结束去构建整个偏序数据，而是引入区间定位去找到关键轮次片段作为偏好数据（起始轮次 t=e 到结束轮次 e+k）。（详细推导过程见论文及其附录）

SDPO 通过轮次定位找出关键的 segment 构建偏好对，克服了标准 DPO 只优化一轮偏好的的问题，与任务级对齐方法 DMPO 等相比，关键 segment 建模避免了对负例中非错误轮次 loss 的计算，减少了噪声，同时 SDPO 是基于交互历史采样的，缩窄了对话者的行为空间，减少了单纯由于对话者或环境导致正例分高的现象。

本质上，标准 DPO 和任务级 DMPO 均是 SDPO 的特例，SDPO 可以针对任一数据灵活的选择合适的数据粒度进行优化。

3.2 多轮偏好数据构建

标准 DPO 的偏好数据是基于固定的对话上下文，构建一轮正例和负例的回复内容，而 SDPO 核心区别在于构建多轮正例和负例的对话内容，其中具体需要多少轮次取决于关键问题片段的长度，避免直接使用整个 session 作为正负例而引入噪音。

具体如下图，该场景下对话双方主要在讨论他们周末的旅行计划，其中 Agent1 的目标是说服 Agent2 去露营，而 Agent2 的目标是选择城市休闲活动。DPO，ETO/DMPO 和 SDPO 的正负例分别如下：

1. DPO：如图中下划线部分，负例为问题较明显的第三轮，正例为基于相同对话历史重新采样出的回复，长度均为一轮；

2. ETO/DMPO：如图中左侧两列，负例一般为未完成目标的整个 session，正例为从头开始采样出的完成情况更好的 session；

3. SDPO：如图中第 1 和第 3 列中的虚线框中部分轮次，负例为原始对话中 3 轮关键出问题的轮次，正例为重新采样出的对应轮次。（注意环境反馈或其他对话者的回复不参与 Loss 计算）

具体到 SDPO 中，其正负例偏好数据构造流程如下：

1. 错误定位：基于完成情况较差的对话 session，利用 GPT-4 定位出错的轮次

2. 采样正例：基于错误轮次前的交互历史采样多个完整的交互路径，选出分数最高的作为正例；

3. 区间选择：利用 GPT-4 从正例中选出一个区间，应是该区间导致正例的分数高于负例，然后再从负例中选取同样长度的区间与正例的区间构成正负样本对。

与标准 DPO 相比，SDPO 仅仅增加了区间选择的步骤，与任务级对齐如DMPO相比，SDPO 仅仅增加了错误定位的步骤。

4.1 主实验对比

我们选择近期学界中比较热的社交智能数据集 SOTOPIA [4] 作为主要的评估 benchmark，使用我方 agent 进行 Self-chat 以及与 GPT-4o 和 GPT-4o-mini 交互三个 setting 进行对比，评估结果如下：

DPO-based 对齐算法中，SDPO 取得了最优的效果，现对于标准 DPO 提升6.1%（7.95-8.56）说明多轮对齐比单轮有比较显著的提升，相对任务级别对齐 ETO 和 DMPO 效果也有显著提升，说明我们按需构建多轮偏好比直接使用任务级偏好更好。

最终效果上，超过了 OpenAI 系列的各个闭源模型，体现了基于 SDPO 进行 post-training 的优势。上述实验使用 Llama-3.1-8B，为了证明 SDPO 的泛化性，我们利用 Mistral-v0.3 进行相同的实验，结果如下：

基于 Mistral 的实验，SDPO 同样取得了最优的效果，且整体趋势跟基于 Llama-3.1-8B 相似，说明我们整个方法具有模型上的迁移性。同时，SDPO 适用于各类多轮任务，因此我们同时还在基于 ALFWorld 等 Agent 数据集上进行实验，后续再进行论文和结论的迭代。

4.2 分析实验

SDPO 核心是探索出动态多轮作为多轮任务的对齐粒度，为了探究最佳的对齐轮数，我们针对 Segment 长度进行了分析实验，基于 SDPO 选择不同的正负例轮数进行对比，实验结果如下：

方括号内前一个数字代表负例包含的轮次数量，后一个数字代表正例包含的 turns 的数量。[1,1] 就是标准的单轮 DPO，[m,n] 就是任务级对齐方法如 DMPO，加粗的则是 SDPO，区间长度由 GPT-4 自动选择。

表格中上半部分正负例区间长度是一致的，可以看出，多轮优化的效果均超过了单轮标准 DPO，但也并非轮次越多越好，我们引入 GPT-4 根据语义动态选择区间长度，取得了最优的效果。

表格的下半部分正负例区间长度不一致，其效果均差于对应的区间长度一致的方法，与理论推导要求区间长度一致相符合，且随着区间长度不一致情况的减弱，模型效果逐渐变好，也解释了为什么任务级别对齐效果也会相对标准 DPO 更好的原因。

另外，我们还分析了不同对齐算法数据采样质量的差异，对正负例样本概率差的影响，对模型输出长度变化的影响，以及不同数据来源的影响等，相关讨论详见论文。

AI大模型学习福利

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓