分享好友 最新资讯首页 最新资讯分类 切换频道
阿里开源R1-Omni,多模态情感识别
2025-04-26 18:56

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,并首次将强化学习与可验证奖励应用在,显著提升了模型在情感识别任务中的推理能力、准确性和泛化能力。

根据测试数据显示R1-Omni的识别能力非常优秀,在MAFW数据集上,R1-Omni模型的加权平均召回率达到了40.04%,无加权平均召回率达到了57.68%;在DFEW数据集上,WAR达到了56.27%UAR达到了65.83%

图片

开源地址:https://github.com/HumanMLLM/R1-Omni

在传统强化学习中,奖励信号的设计往往需要依赖于复杂的奖励模型,这些模型通常需要大量的标注数据来训练,并且在多模态任务中难以精确地捕捉到视觉、音频和文本等多种模态之间的复杂关系。不仅增加了训练的复杂性和计算成本,还可能导致奖励信号的不准确,从而影响模型的学习效果。

为了解决这些问题,R1-Omni模型引入了全新的强化学习方法——强化学习与可验证奖励(RLVR)。

相比之下,RLVR能直接利用任务的内在正确性标准来设计奖励函数,避免了对中间奖励模型的依赖。在多模态情感识别任务中,这意味着模型可以直接根据情感预测的准确性来获得奖励,而无需通过一个复杂的奖励模型来间接评估。

图片

对于一个输入的多模态样本q(包含视频帧、音频流等信息),模型生成一个情感预测响应o,随后通过可验证奖励函数R(q, o)来判断o是否与真实情感标签一致。

如果预测正确,模型获得奖励值1,表示其输出与真实结果匹配;如果预测错误,则获得奖励值0,表示输出不正确。

此外,RLVR的奖励机制还为模型的优化目标提供了清晰的方向。能够明确地知道哪些预测是正确的,哪些是错误的,从而更加有针对性地调整模型参数,优化其对多模态信息的处理和融合能力,提高情感识别的准确性和可靠性。

训练方面,受到DeepSeek-R1的启发,R1-Omni也使用了类似的方法。多模态情感识别任务涉及到对视觉、音频等多种信息的综合处理和分析,其复杂性远超单一模态的任务。

如果模型在训练初期没有得到有效的引导和初始化,直接进入常规训练阶段,可能会在面对海量且复杂的多模态数据时陷入混乱,无法准确提取关键信息,导致训练效率低下,最终的模型性能也难以达到预期。

研究人员挑选了可解释多模态情感推理(EMER)数据集和手动标注的 HumanOmni 数据集。从 EMER 数据集中选取的 232 个样本,包含了丰富的多模态数据。这些样本中的视频片段记录了人物丰富多样的表情、动作以及场景变化等视觉信息,与之匹配的音频则涵盖了语音的语调、语速、音色等丰富细节。

图片

例如,在一个 EMER 样本中,视频展示了一位女性在室内场景中,先是眼神游离、眉头微蹙,随后嘴角微微下撇,同时音频中她的声音带有一丝颤抖,语气较为低沉,字幕显示 “我真的不知道该怎么办了。注释会引导模型理解这些视觉、音频和文本信息之间的联系,帮助模型推断出人物此刻的焦虑情绪。

手动标注的HumanOmni数据集有348个高质量样本。这些样本是基于实际场景和研究需求进行人工标注的,具有较高的针对性和可靠性。它们与 EMER 数据集的样本相互补充,共同为模型的冷启动训练提供了丰富的数据资源。

在这两个高质量数据的微调下,模型开始接触并学习多模态情感识别的相关知识。它逐渐掌握如何从视频中的人物表情、动作,音频的音色、语调,以及文本的语义内容等多模态信息中提取关键线索,并尝试将这些线索进行整合和分析,进而做出关于情感类别的准确判断。

图片

根据RAVDESS测试数据显示,R1-Omni模型的WAR达到44.69%UAR达到了43.00%,其泛化能力也明显优于其他模型。

最新文章
小孩掰断奔驰车标,车主索赔,家长:孩子还小……
4月6日,宁夏银川市永宁县幸福小镇居民吴某准备驾车出行时,发现自己奔驰车的立标被掰断掉落在一旁,十分气愤和心疼,立即报了警
5.3 高清摄像头拍照结果上传失败的情况如何解决?手机usb外置摄像头「5.3 高清摄像头拍照结果上传失败的情况如何解决?」
分类名称说明控件方法start()开始取得摄像头画面数据并显示在控件中。控件方法cap()拍照并停止摄像头动态画面捕捉控件方法stop()
手机卡取出全攻略:简单步骤与关键注意事项揭秘手机卡怎么拿出来「手机卡取出全攻略:简单步骤与关键注意事项揭秘」
在现代生活中,智能手机已经成为我们生活中不可或缺的伙伴。然而,许多人在更换手机时发现,手机卡的取出似乎并不是一件简单的事
任正非:我家人都用苹果手机 孟晚舟被捕前就想辞职苹果手机创始人「任正非:我家人都用苹果手机 孟晚舟被捕前就想辞职」
在深圳华为总部,任正非罕见地接受了CTV新闻主播和高级编辑Lisa LaFlamme长达两小时的采访。这是任正非第一次接受加拿大媒体的采
全面解析手机低端处理器天梯图:选购指南与性能对比分析手机性能对比「全面解析手机低端处理器天梯图:选购指南与性能对比分析」
简介:在智能手机市场中,低端处理器往往被认为是性能较弱的选择,但它们在价格和能效方面具有显著优势。本文将通过全面解析手机
浙商银行积极开展股票回购增持贷款业务支持资本市场发展
  记者从获悉,截至4月9日,浙商银行已与近60家上市公司及股东达成股票回购增持贷款意向合作,储备拟回购增持金额超80亿元,授
【我与iQOO的故事】五周年快乐!vivo是什么牌子的手机「【我与iQOO的故事】五周年快乐!」
在这之后iQOO不断推出了多款备受用户喜爱的手机产品,如iQOO Neo系列、iQOO 3系列等。我也给我的室友推荐了iQOO,其中两个室友都
市三女中的邬达克建筑变身音乐殿堂,手风琴大师带你“环游世界”!
4月4日下午,“世界音乐之旅——手风琴陪你环游世界”专家讲演音乐会在上海市第三女子中学举办。由邬达克设计的百年建筑景莲堂化
乐道总裁艾铁成宣布离开,虽未实现交付目标,但兑现离职承诺
3月29日,NBA灰熊队官方宣布与主教练泰勒-詹金斯分道扬镳,让整个联盟感到震惊。季后赛来临之际,在整体实力较强的西部排名第五
荣昌卤鹅火爆出圈,当地商户:不会涨价,更不会降低品质
近日,全球知名网红“甲亢哥”中国行期间,荣昌大叔林江在成都、重庆、深圳、香港和长沙五座城市追着“甲亢哥”投喂美食,其中多