EmoNet：用于情绪识别的说话者感知变压器 - 以及我在 2026 年会以不同方式构建的东西 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

EmoNet：用于情绪识别的说话者感知变压器 - 以及我在 2026 年会以不同方式构建的东西

2026年5月28日 16:30 33 Comments

对我的硕士学位论文的回顾、它所占据的排行榜，以及自此重塑该领域的法学硕士转变。EmoNet：用于情绪识别的说话者感知变压器 - 以及我在 2026 年以不同方式构建的内容首先出现在《走向数据科学》上。

来源:走向数据科学

，我提交了关于会话中的情绪识别（ERC）的硕士学位论文。该模型 EmoNet 在 EmoryNLP 上取得了 39.18 的加权 F1，与当时的公开 PapersWithCode 排行榜具有竞争力，位于 TUCORE-GCN_RoBERTa (39.24) 和 S+PAGE (39.14) 之间，并且比我选择的基线 CoMPM 提高了 +1.81 F1。

两年后，我回来看看现在的田地在哪里。排行榜无法识别。排名靠前的条目不再是具有聪明注意力头的纯编码器模型 - 它们是基于 LLaMA-2-7B 的系统，具有 LoRA 微调和检索增强提示：InstructERC、CKERC、BiosERC、LaERC-S。方法不同。计算方式不同。心态不同。

然而，当我仔细阅读这些新论文时，我在 EmoNet 中提出的核心思想出现在其中，只是在堆栈的不同层实现。这就是我构建的内容、它放置的位置以及如果我重新开始我现在会构建的故事。

什么是 ERC，以及为什么纯文本很难

对话中的情绪识别是为多轮对话中的每个话语分配情绪标签的任务。它在一个重要方面不同于对孤立句子的情感分析：话语的情感是由它之前的内容以及说话者塑造的。

考虑来自 EmoryNLP 数据集的此交换（源自电视节目《老友记》）：

莫妮卡：温迪，我们达成协议了！是的，你答应了！温迪！温迪！温迪！ [疯狂]

雷切尔：那是谁？ [中性]

莫妮卡：温迪保释了。我没有女服务员。 [疯狂]

孤立地问，“那是谁？”情绪上是中立的。 “中立”标签仅在上下文中才有意义——它位于不同说话者的两个愤怒话语之间，ERC 模型必须捕捉这种对话动态。

这种信息丢失是核心挑战。您必须从比人类级基准更嘈杂的信号中提取情感。

2024 年景观

这似乎是一个值得解决的问题。

三个贡献，凭直觉

话语数据集提出的识别具有内容为什么选择的注意力中立的 EmoryNLP 提高模型编码器达成协议现在的 EmoNet F1 当时的女服务员 ERC 信息丢失温迪情感排行榜服务员情绪莫妮卡对话动态竞争力