EmoNet:用于情绪识别的说话者感知变压器 - 以及我在 2026 年会以不同方式构建的东西

对我的硕士学位论文的回顾、它所占据的排行榜,以及自此重塑该领域的法学硕士转变。EmoNet:用于情绪识别的说话者感知变压器 - 以及我在 2026 年以不同方式构建的内容首先出现在《走向数据科学》上。

来源:走向数据科学

,我提交了关于会话中的情绪识别(ERC)的硕士学位论文。该模型 EmoNet 在 EmoryNLP 上取得了 39.18 的加权 F1,与当时的公开 PapersWithCode 排行榜具有竞争力,位于 TUCORE-GCN_RoBERTa (39.24) 和 S+PAGE (39.14) 之间,并且比我选择的基线 CoMPM 提高了 +1.81 F1。

两年后,我回来看看现在的田地在哪里。排行榜无法识别。排名靠前的条目不再是具有聪明注意力头的纯编码器模型 - 它们是基于 LLaMA-2-7B 的系统,具有 LoRA 微调和检索增强提示:InstructERC、CKERC、BiosERC、LaERC-S。方法不同。计算方式不同。心态不同。

然而,当我仔细阅读这些新论文时,我在 EmoNet 中提出的核心思想出现在其中,只是在堆栈的不同层实现。这就是我构建的内容、它放置的位置以及如果我重新开始我现在会构建的故事。

什么是 ERC,以及为什么纯文本很难

对话中的情绪识别是为多轮对话中的每个话语分配情绪标签的任务。它在一个重要方面不同于对孤立句子的情感分析:话语的情感是由它之前的内容以及说话者塑造的。

考虑来自 EmoryNLP 数据集的此交换(源自电视节目《老友记》):

莫妮卡:温迪,我们达成协议了!是的,你答应了!温迪!温迪!温迪!   [疯狂]

雷切尔:那是谁?   [中性]

莫妮卡:温迪保释了。我没有女服务员。   [疯狂]

孤立地问,“那是谁?”情绪上是中立的。 “中立”标签仅在上下文中才有意义——它位于不同说话者的两个愤怒话语之间,ERC 模型必须捕捉这种对话动态。

这种信息丢失是核心挑战。您必须从比人类级基准更嘈杂的信号中提取情感。

2024 年景观

这似乎是一个值得解决的问题。

三个贡献,凭直觉