基于变压器的模型已在包括图像超级分辨率(SR)在内的低级视觉任务中取得了显着的结果。但是,在获得全球信息时,基于不重叠的窗口中依赖自我注意的早期aperach遇到了挑战。为了激活全球更多输入像素,已经提出了混合注意模型。此外,通过仅将像素的RGB损失(例如L 1)降至最低而无法捕获基本的高频降低,训练不足。本文提出了两种贡献:i)我们引入了卷积非本地稀疏注意(NLSA)块,以扩展混合变压器体系结构,以增强其接受场。ii)我们采用小波损失来训练变压器模型,以提高定量和主观性能。虽然先前已经探索过小波损耗,但在基于训练变压器的SR模型中显示了它们的力量是新颖的。我们的实验结果表明,所提出的模型在各种基准数据集中提供了状态的PSNR结果以及出色的视觉性能。
基于变压器的大语言模型(LLMS)在各种自然语言处理任务中都具有令人印象深刻的表现。为LLM推断为生成长含量而构成挑战,这是由于瞬态状态的巨大内存足迹(称为键值(KV)缓存),该状态以序列长度和批处理大小缩放。在本文中,我们提出了Infinigen,这是一种针对Longext Genertion量身定制的新型KV缓存管理框架,该框架协同与现代卸载基于卸载的推理系统合作。Infinigen利用了关键见解,即可以通过对当前层的最小彩排以及查询权重的一部分和后续层的关键缓存进行最小化的彩排来推测,对于计算变压器中后续注意力层至关重要的重要洞察力。这使我们只能预取基本的KV缓存条目(不提供所有内容),从而在基于卸载的LLM服务系统中减轻主机内存中的提取开销。我们对几种代表性LLMS的评估表明,与先前的KV高速缓存管理方法相比,Infinigen将基于现代卸载系统的总体性能提高了3.00倍,同时提供了更好的模型准确性。
摘要 电池组既表现出固有的电池间差异,也表现出温度和其他应力因素的时空差异,从而影响电池退化路径的演变。为了解释这些变化和退化或电池扩散的差异,我们提出了一种利用 3 参数非齐次伽马过程对锂离子电池退化进行建模的方法。该方法可预测任何电池架构的容量衰减或故障时间,并使用加速因子调整电池拟合退化数据的分布。在电池组级别,使用并联和串联配置的伽马分布变量组合对电池进行建模。将不同热条件下的容量衰减或故障时间的实际值与预测值进行比较,显示相对误差在 1 – 12% 范围内。我们还提出了一种通过分析样本量对估计不同电池组退化的影响来估计建模扩散和退化路径演变所需的最少电池数量的方法。这种采样策略对于降低设计电池组、电池管理系统和电池热管理系统所需的运行模拟的计算成本特别有用。
我们提出了一种现代的体现问题答案(EQA),这是理解环境足以以自然语言回答问题的任务。代理可以通过借鉴情节记忆来实现这种理解,就像在移动机器人的情况下一样,由代理商在智能眼镜上示例或积极探索环境。我们使用OpenEQA(用于EQA的第一个开放式基准基准数据集)伴随着我们的配方。OpenEQA包含超过180个现实环境提取的1600多个高质量的人类生成的问题。除了数据集外,我们还提供了一种自动LLM驱动的评估协议,该协议与人类判断具有良好的相关性。使用此数据集和评估协议,
要克服常规调节器的带宽限制,可以采用等离子设备。等离子调节剂已显示可运行高达500 GHz [8],因此是用于此类高宽宽应用的理想解决方案。最近通过微环谐振器调制器(MRR)[9]和高达363 GBIT/s的净数据速率(MACH-ZEHNDER调制器(MZM)[10])已被证明。这些等离子调节剂基于硅光子(SIPH)平台,因此可以无缝地集成到标准的SIPH过程中以进行整体整合。这有望通过共包装[11],启用小占地面积[12]和低驾驶电压[13]来进一步改进,这是400 Gbit/s tranceivers的理想候选者。然而,单个载体IM/DD演示仍缺少血浆以上的血浆以上。
虽然最近的无模型增强学习(RL)方法已经证明了人类水平在游戏环境中的有效性,但它们在视觉导航等日常任务中的成功受到了限制,尤其是在很明显的外观变化下。此限制来自(i)样本效率不佳和(ii)对培训方案的过度效果。为了应对这些挑战,我们提出了一种世界模型,该模型使用(i)对比不受监督的学习和(ii)干预不变的统治者学习不变特征。学习世界动态的明确表示世界模型,提高样本效率,而对比度学习隐含地实施不变特征的学习,从而改善了概括。,随着对比的损失与世界模式的na'整合还不够好,因为基于世界模型的RL方法独立地优化表示表示和代理策略。为了克服这个问题,我们提出了一种干预 - 不变的正规剂,其形式是辅助任务,例如深度预测,图像DeNoising,图像分割等,以明确执行不变性以进行样式的干预。我们的方法优于当前基于最新的模型和不含模型的RL方法,并显着改善了IGIBSON基准测试中评估的分数范围内导航任务。仅使用视觉观察,我们进一步证明了我们的方法超过了最近的语言引导导航基础模型,这对于在计算功能有限的机器人上部署至关重要。最后,我们证明了我们提出的模型在吉布森基准上其感知模块的SIM到真实传输方面表现出色。
抽象课程推荐系统可以通过利用用户交互数据来帮助学生识别合适或有吸引力的课程,这显示了用户和课程之间以前的参与。但是,现有课程推荐系统的普遍问题是它们倾向于优先考虑准确性而不是解释性。这些复杂模型的“黑框”性质提出了一个挑战:准确表征和建模用户的偏好,同时还提供明确的,具有预性和可解释的用户配置文件。为了解决这种限制,我们为课程推荐提出了一个新颖的知识实体感知模型,该模型称为KEAM,该模型基于知识图的详细信息支持明确的用户个人资料生成,以增强学生对建议背后的理由的理解。具体来说,我们利用知识图中编码的信息,通过更换隐藏单元来使用神经网络之间建立单位之间的连接。接下来,对模型进行了培训,可以捕获学生的偏好并创建用户配置文件,以提供可解释的建议。在两个现实世界的在线数据集上进行了全面的实验,以评估所提出的模型的有效性和解释。
模拟在粒子和核物理学中起重要作用。它被广泛用于DECOTER设计和实验数据和理论模型之间的比较。在特定上,模拟依赖于蒙特卡洛方法,需要显着的计算资源。尤其是,这种方法不能扩展以满足高光度大型强子对撞机(HL-LHC)运行期间预期的大量数据所产生的增长需求。使用众所周知的仿真软件Geant4捕获的粒子碰撞和相互作用的详细模拟需要数十亿个CPU小时,构成了LHC实验的一半以上的计算源[1,2]。更具体地说,对热量表中粒子阵雨的详细模拟是计算最高的步骤。已经开发了利用重复使用先前计算或测量物理量的思想的模拟方法,以减少计算时间[3,4]。这些方法从专门进行到单独的实验中,尽管它们比完整的模拟更快,但它们的速度不够快或缺乏准确性。因此,粒子物理社区需要使用新的更快的模拟方法来建模实验。模拟热量计响应的可能方法之一是使用深度学习技术。,特别是最近的工作[5]提供了证据,表明可以使用生成性副本网络来效果模拟粒子阵雨。虽然实现了超过100 000倍的速度,但设置非常简单,因为输入粒子为