现实世界中的交流本质上是多模态的。在交谈时,视力正常和听力正常的人们通常使用听觉和视觉线索来理解对方。例如,物体在空间中移动时可能会发出声音,或者我们可以使用一个人的嘴巴运动来更好地理解他们在嘈杂的环境中所说的话。尽管如此,许多神经科学实验仍依赖单模态刺激来了解大脑中感官特征的编码。因此,在自然环境中,视觉信息对听觉信息编码的影响程度以及反之亦然尚不清楚。在这里,我们通过记录 11 名受试者在视听 (AV)、仅视觉 (V) 和仅音频 (A) 条件下收听和观看电影预告片时的头皮脑电图 (EEG) 来解决这个问题。然后,我们拟合线性编码模型,描述大脑反应与刺激中的声学、语音和视觉信息之间的关系。我们还比较了当刺激以原始 AV 格式呈现时和当删除视觉或听觉信息时,听觉和视觉特征调谐是否相同。在这些刺激中,视觉和听觉信息相对不相关,包括场景中的口头叙述以及动画或真人角色在有脸和无脸的情况下说话。对于这种刺激,我们发现在 AV 和仅 A 条件下听觉特征调谐相似,同样,当呈现刺激时有音频(AV)和删除音频(仅 V)时视觉信息的调谐也相似。在交叉预测分析中,我们调查了在 AV 数据上训练的模型是否能与在单峰数据上训练的模型类似地预测对 A 或 V 测试数据的响应。总体而言,使用 AV 训练和 V 测试集的预测性能与使用 V 训练和 V 测试集的预测性能相似,这表明听觉信息对 EEG 的影响相对较小。相比之下,使用 AV 训练和仅 A 测试集的预测性能略差于使用匹配的仅 A 训练和仅 A 测试集。这表明视觉信息对 EEG 的影响更大,尽管这在衍生特征调整中没有质的差异。实际上,我们的结果表明研究人员可能会受益于多模态数据集的丰富性,然后可以使用这些数据集来回答多个研究问题。
尽管通过视觉和语言预处理取得了令人印象深刻的进步,但尚不清楚这种联合学习范式是否可以帮助理解每种单独的方式。在这项工作中,我们通过探测广泛的任务,旨在以细微的方式评估学习代表的质量,对视觉和语言模型和视觉模型进行比较分析。有趣的是,我们的经验观察表明,视觉和语言模型在标签预测任务(例如对象和属性预测)方面更好,而仅视力模型在需要更局部化的密集预测任务下更强大。我们希望我们的研究能阐明语言在视觉学习中的作用,并作为各种训练有素的模型的经验指南。代码将在https://github.com/lizw14/visual_probing上发布。
摘要 我们考虑仅在线性有序替代方案集的子集上表现出单峰性的域。我们将此类域称为部分单峰域,并对这些域上的一致和策略证明社会选择函数进行了表征。我们获得了以下有趣的辅助结果:(i)我们表征了广义顶连通域上的所有一致和策略证明社会选择函数,广义顶连通域是最大单峰域的重要子类,(ii)我们表明策略证明性和群体策略证明性在部分单峰域上是等价的,(iii)最后,我们识别并表征接近匿名的部分单峰域上的一致和策略证明的 SCF。作为这一结果的应用,我们获得了多峰域(Stiglitz (1974)、Epple 和 Romano (1996a))、多个单峰域(Reffgen (2015))和图上的单峰域(Demange (1982)、Schummer 和 Vohra (2002))上的一致和策略证明的社会选择函数的特征。
最先进的基于深度学习的立体匹配方法将视差估计视为一个回归问题,其中损失函数直接定义在真实视差及其估计视差上。然而,视差只是由成本量建模的匹配过程的副产品,而间接学习由视差回归驱动的成本量容易出现过度拟合,因为成本量受到约束。在本文中,我们提出直接向成本量添加约束,方法是用在真实视差处达到峰值的单峰分布过滤成本量。此外,估计每个像素的单峰分布的方差,以明确模拟不同环境下的匹配不确定性。所提出的架构在 Scene Flow 和两个 KITTI 立体基准上实现了最先进的性能。具体来说,我们的方法在 KITTI 2012 评估中排名第一,在 KITTI 2015 评估中排名第四(记录于 2019.8.20)。AcfNet 的代码可以在以下位置找到:https://github.com/youmi-zym/AcfNet。