分享好友 最新资讯首页 最新资讯分类 切换频道
阿里开源R1-Omni,多模态情感识别
2025-04-26 18:56

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,并首次将强化学习与可验证奖励应用在,显著提升了模型在情感识别任务中的推理能力、准确性和泛化能力。

根据测试数据显示R1-Omni的识别能力非常优秀,在MAFW数据集上,R1-Omni模型的加权平均召回率达到了40.04%,无加权平均召回率达到了57.68%;在DFEW数据集上,WAR达到了56.27%UAR达到了65.83%

图片

开源地址:https://github.com/HumanMLLM/R1-Omni

在传统强化学习中,奖励信号的设计往往需要依赖于复杂的奖励模型,这些模型通常需要大量的标注数据来训练,并且在多模态任务中难以精确地捕捉到视觉、音频和文本等多种模态之间的复杂关系。不仅增加了训练的复杂性和计算成本,还可能导致奖励信号的不准确,从而影响模型的学习效果。

为了解决这些问题,R1-Omni模型引入了全新的强化学习方法——强化学习与可验证奖励(RLVR)。

相比之下,RLVR能直接利用任务的内在正确性标准来设计奖励函数,避免了对中间奖励模型的依赖。在多模态情感识别任务中,这意味着模型可以直接根据情感预测的准确性来获得奖励,而无需通过一个复杂的奖励模型来间接评估。

图片

对于一个输入的多模态样本q(包含视频帧、音频流等信息),模型生成一个情感预测响应o,随后通过可验证奖励函数R(q, o)来判断o是否与真实情感标签一致。

如果预测正确,模型获得奖励值1,表示其输出与真实结果匹配;如果预测错误,则获得奖励值0,表示输出不正确。

此外,RLVR的奖励机制还为模型的优化目标提供了清晰的方向。能够明确地知道哪些预测是正确的,哪些是错误的,从而更加有针对性地调整模型参数,优化其对多模态信息的处理和融合能力,提高情感识别的准确性和可靠性。

训练方面,受到DeepSeek-R1的启发,R1-Omni也使用了类似的方法。多模态情感识别任务涉及到对视觉、音频等多种信息的综合处理和分析,其复杂性远超单一模态的任务。

如果模型在训练初期没有得到有效的引导和初始化,直接进入常规训练阶段,可能会在面对海量且复杂的多模态数据时陷入混乱,无法准确提取关键信息,导致训练效率低下,最终的模型性能也难以达到预期。

研究人员挑选了可解释多模态情感推理(EMER)数据集和手动标注的 HumanOmni 数据集。从 EMER 数据集中选取的 232 个样本,包含了丰富的多模态数据。这些样本中的视频片段记录了人物丰富多样的表情、动作以及场景变化等视觉信息,与之匹配的音频则涵盖了语音的语调、语速、音色等丰富细节。

图片

例如,在一个 EMER 样本中,视频展示了一位女性在室内场景中,先是眼神游离、眉头微蹙,随后嘴角微微下撇,同时音频中她的声音带有一丝颤抖,语气较为低沉,字幕显示 “我真的不知道该怎么办了。注释会引导模型理解这些视觉、音频和文本信息之间的联系,帮助模型推断出人物此刻的焦虑情绪。

手动标注的HumanOmni数据集有348个高质量样本。这些样本是基于实际场景和研究需求进行人工标注的,具有较高的针对性和可靠性。它们与 EMER 数据集的样本相互补充,共同为模型的冷启动训练提供了丰富的数据资源。

在这两个高质量数据的微调下,模型开始接触并学习多模态情感识别的相关知识。它逐渐掌握如何从视频中的人物表情、动作,音频的音色、语调,以及文本的语义内容等多模态信息中提取关键线索,并尝试将这些线索进行整合和分析,进而做出关于情感类别的准确判断。

图片

根据RAVDESS测试数据显示,R1-Omni模型的WAR达到44.69%UAR达到了43.00%,其泛化能力也明显优于其他模型。

最新文章
珠海发到湖南常德货运专线 调返程车 回程车运输
广州、从化、佛山、东莞、中山、增城,花都-清远-江门-番禺-河源-惠州-四会到常德市;武陵区、鼎城区、安乡县、汉寿县、澧县、临
首次中国—南非数字部长对话在京举行
人民财讯7月22日电,7月22日,首次中国—南非数字部长对话会议在北京举行。工业和信息化部部长李乐成与南非通信和数字技术部部长
唐家巷社区开展“青春无诈 平安一夏”主题青少年防诈骗宣传活动
为增强辖区青少年网络安全意识,筑牢反诈防线,近期唐家巷社区联合辖区派出所开展“青春无诈 平安一夏”主题防诈骗宣传活动,吸
你行你上 怀安天地梁炫车技越野基地上演野超大挑战
硬派集结,驭山而行。7月19日,BJ40燃油“你行你上”天地梁全球野超大挑战活动在怀安县天地梁越野基地举行。此次活动充分利用基
《明末:渊虚之羽》发售!影驰实机配置推荐!
2025年7月24日,国产3A单机大作《明末:渊虚之羽》正式登陆PC平台,以独特的国风美学与硬核的战斗设计,为玩家带来一场沉浸式古
《贵州省旅游条例》8月1日起施行,助力打造世界级旅游目的地
今天(7月29日),记者从省政府新闻办举行的新闻发布会上获悉,《贵州省旅游条例》已于2025年5月29日经贵州省第十四届人民代表大
夏日装机畅享游戏时光,这几款技嘉主板 / 显卡 / 显示器别错过
炎炎夏日,唯空调和游戏不能辜负,能在空调房里打游戏无疑是美事一桩。况且当前正值暑假,PC 电脑和装机需求爆发的旺季,很多 PC
中国邮政打假:部分电商及直播平台销售假冒邮资票品
7月23日,中国邮政发布打假声明称,近期,部分电商及直播平台未经中国邮政集团有限公司(下称中国邮政)授权,销售假冒邮资票品
万州“驼铃”宣传队进社区 开展暑期禁毒教育
近日,重庆市万州教育矫治所“驼铃”禁毒教育宣传队走进社区,为暑期儿童开展禁毒教育活动。禁毒教育公开课授课现场(重庆市万州
帆船赛事、夜娱夜秀……青岛市发布下月文旅消费促进活动计划
7月24日,市政府新闻办召开新闻发布会,介绍青岛市8月文旅消费促进活动有关情况。8月,市文化和旅游局将以“扬帆青岛,最美仲夏