摘要 — 机器学习模型在对未知数据集进行推理时,通常会对熟悉的组或相似的类集产生有偏差的输出。人们已经研究了神经网络的泛化以解决偏差,这也表明准确度和性能指标(例如精确度和召回率)有所提高,并改进了数据集的验证集。测试和验证集中包含的数据分布和实例在提高神经网络的泛化方面起着重要作用。为了生成无偏的 AI 模型,不仅应对其进行训练以实现高精度并尽量减少误报。目标应该是在计算权重时防止一个类/特征对另一个类/特征占主导地位。本文使用选择性得分和余弦相似度等指标研究了 AI 模型上最先进的对象检测/分类。我们专注于车辆边缘场景的感知任务,这些任务通常包括协作任务和基于权重的模型更新。分析是使用包括数据多样性差异、输入类的视点和组合的案例进行的。我们的结果表明,使用余弦相似度、选择性得分和不变性来衡量训练偏差具有潜力,这为开发未来车辆边缘服务的无偏 AI 模型提供了启示。索引术语 — 偏差、数据多样性、特征相似度、泛化、选择性得分
逐渐的域适应性(GDA),其中为学习者提供了辅助中间域,在许多情况下已经在理论上和经验上研究了。尽管在关键安全方案中起着至关重要的作用,但GDA模型的对抗性鲁棒性仍然没有探索。在本文中,我们采用了有效的渐进自我训练方法,并用副本自我训练(AST)替换香草自我训练。AST首先预测未标记的数据上的标签,然后对手在伪标记的分布上训练模型。有趣的是,我们发现逐渐的AST不仅提高了对抗性的准确性,而且可以提高目标域的清洁准确性。我们揭示这是因为当伪标签包含一部分不正确标签时,对抗性训练(AT)的性能要比标准训练更好。因此,我们首先介绍多类分类设置中逐渐AST的概括误差界限。然后,我们使用子集总和问题的最佳值在真实分布和伪标记分布上的对抗误差上桥接标准误差。结果表明,在具有不正确的伪标签的数据上,可能会获得比标准培训更紧密的结合。我们进一步提出了有条件的高斯分布的一个例子,以提供更多的见解,说明为什么逐渐的AST可以提高GDA的清洁精度。
脑机接口 (BMI) 可以恢复瘫痪患者的运动功能,但目前受限于实时解码算法的准确性。使用现代训练技术的循环神经网络 (RNN) 在根据神经信号准确预测运动方面已显示出良好的前景,但尚未在闭环设置中与其他解码算法进行严格评估。在这里,我们将 RNN 与其他神经网络架构进行了比较,使用来自非人类灵长类动物的皮层内信号对手指运动进行实时连续解码。在一指和两指在线任务中,LSTM(一种 RNN)的表现优于卷积和基于 Transformer 的神经网络,平均吞吐量比卷积网络高 18%。在运动集减少的简化任务中,RNN 解码器被允许记住运动模式并匹配健全人的控制。随着不同运动数量的增加,性能逐渐下降,但并没有低于完全连续的解码器性能。最后,在双指任务中,其中一个自由度的输入信号较差,我们使用经过训练的 RNN 恢复了功能控制,这些 RNN 既可以充当运动分类器,也可以充当连续解码器。我们的结果表明,RNN 可以通过学习和生成准确的运动模式来实现功能性实时 BMI 控制。
脑机接口 (BMI) 可以恢复瘫痪患者的运动功能,但目前受限于实时解码算法的准确性。使用现代训练技术的循环神经网络 (RNN) 在根据神经信号准确预测运动方面已显示出良好的前景,但尚未在闭环设置中与其他解码算法进行严格评估。在这里,我们将 RNN 与其他神经网络架构进行了比较,使用来自非人类灵长类动物的皮层内信号对手指运动进行实时连续解码。在一指和两指在线任务中,LSTM(一种 RNN)的表现优于卷积和基于 Transformer 的神经网络,平均吞吐量比卷积网络高 18%。在运动集减少的简化任务中,RNN 解码器被允许记住运动模式并匹配健全人的控制。随着不同运动数量的增加,性能逐渐下降,但并没有低于完全连续的解码器性能。最后,在双指任务中,其中一个自由度的输入信号较差,我们使用经过训练的 RNN 恢复了功能控制,这些 RNN 既可以充当运动分类器,也可以充当连续解码器。我们的结果表明,RNN 可以通过学习和生成准确的运动模式来实现功能性实时 BMI 控制。
摘要 - 自主驾驶的基于深度学习的轨迹预测模型通常会在概括到分布(OOD)方案的概括中遇到困难,有时表现比简单的基于规则的模型差。为了解决这一限制,我们提出了一个新颖的框架,自适应预测集合(APE),该集合整合了深度学习和基于规则的预测专家。学习的路由功能,与深度学习模型同时训练,根据输入方案动态选择最可靠的预测。我们在大规模数据集上进行的实验,包括Waymo Open Motion Datat(WOMD)和Argoverse,证明了整个数据集的零射击概括的改进。我们表明,我们的方法的表现优于单个预测模型和其他变体,尤其是在具有很高比例的OOD数据的长音预测和场景中。这项工作强调了混合方法在自主驾驶中进行鲁棒和可推广的运动预测的潜力。更多详细信息可以在项目页面上找到:https://sites.google.com/view/ ape-generalization。
了解神经网络在看不见的数据上如何概括对于设计更健壮和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释概括差距而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
医疗保健中的联邦学习(FL)患有非相同分布的(非IID)数据,从而影响模型收敛和性能。虽然现有的非IID问题解决方案通常不会量化联邦客户之间的非IID性质程度,但评估它可以改善培训经验和成果,尤其是在不熟悉数据集的现实世界中。本文提出了一种实用的非IID评估方法,用于医疗分割问题,强调了其在佛罗里达州的重要性。我们提出了一种简单而有效的解决方案,该解决方案利用了医疗图像的嵌入空间和对其元数据计算的统计测量结果。我们的方法是为医学成像而设计的,并集成到联邦平均值中,通过降低最遥远的客户的贡献,将其视为离群值,从而改善了模型的概括。此外,它通过引入客户的基于距离的聚类来增强模型个性化。据我们所知,这种方法是第一个使用基于距离的技术来为医学成像域内非IID问题提供实际解决方案的方法。此外,我们验证了三个公共FL成像放射学数据集的方法(Fets(Pati等人,2021),前列腺(Liu等人,2020b),(Liu等人,2020a)和Fed-Kits2019(Terrail等人,2022)))在各种放射学成像方案中证明其有效性。关键字:联合学习,非IID数据,个性化,概括,医学细分,医学成像。
1.2 挑战与影响 ARC 公开测试中,人类的平均表现准确率超过 60%[ 3 ]。相反,最有能力的模型利用 SOTA LLM[ 4 ] 也只能达到 50% 以下的准确率。考虑到大量的预训练数据,当前人工智能与人类之间的差距更加明显。对 ARC 竞赛解决方案的研究可以为我们对人类思维中的直觉和推理过程进行建模提供重要见解,促进新型人工智能范式的构建。同时,“[至少,解决 ARC-AGI 将产生一种新的编程范式[ 5 ]”,只需展示几个输入输出示例,就可以让没有编码经验的人进行程序合成。2 竞赛细节 数据集 ARC Prize 竞赛提供三个数据集:公共训练集、公共评估集和私有评估集。公共训练集和公共评估集均包含 400 个任务文件,而私有评估集包含 100 个任务文件。每个任务有 2 到 10 对(通常为 3 个)示例和 1 到 3 对(通常为 1 个)测试[2, 6]。指标 我们可以通过两种方法评估性能: 1)像素正确性 - 正确推断的像素占总数的百分比; 2)正确/不正确 - 推断的输出在形状、颜色和位置方面是否与任务的测试输出相匹配。竞赛使用第二种方法评估提交内容[6]。
了解神经网络在看不见的数据上如何概括对于设计更多的易萧条和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释生成间隙而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
chatgpt4pcg竞赛呼吁参与者向chatgpt提交输入,或提示将其输出引导到INSTUCTIONS,以生成水平作为俄罗斯方块型块的序列。提示提交给比赛的提示是由Chatgpt查询的,以生成类似于英语字母字母的级别。lev-基于与游戏引擎中的目标字母和物理稳定性的相似性评估。这为基于及时的程序内容生成(PCG)提供了定量评估设置,该方法在PCG中越来越受欢迎,就像在生成AI的其他领域一样。本文着重于复制和推广竞争结果。本文中的复制实验首先旨在测试从chatgpt收集的响应数量是否足以说明随机性。我们需要原始提示提交,并在比赛结束后大约六个月后,在不同的机器上重新重新竞争。我们发现结果很大程度上是复制的,只是由于我们只能部分确定的原因,15个提交中的两项在我们的补习中做得更好。在概括方面,我们注意到表现最佳的提示具有针对所有26个目标级别硬编码的说明,这与从示例中生成新的,以前看不见的内容的PCGML目标不一致。我们在更受限制的零射击和少数促使方案的情况下执行实验,并发现对当前方法的概括仍然是一个挑战。