Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data
本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。语音和传感器时间序列数据都在时域和频域中编码信息,例如谱功率和波形 shapelet。我们表明,语音基础模型可以学习泛化到语音领域之外的表示,并在可穿戴传感器的各种时间序列任务上实现最先进的性能。根据从 HuBERT 和 wav2vec 2.0 提取的特征进行训练的探针优于从直接在特定模态数据集上训练的自监督模型中提取的探针......
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距