人类的视野。这种能力不仅对于诸如对象操纵和导航之类的实践日常任务至关重要,而且在培养人类创造力方面起着关键作用,使我们能够以深度,幽默感和沉浸感进行设想和制作对象。在本文中,我们重新审视了视图综合问题并提出:我们如何学习一般的3D表示以促进可扩展的视图综合?我们试图从以下两个观察结果中调查这个问题:i)到目前为止,目前的最新进展主要集中在训练速度和/或提高效率上[12,18,18,31,48]。值得注意的是,这些进步都共同依赖于体积渲染以进行场景优化。因此,所有这些视图合成方法固有地是场景特定的,再加上全局3D空间坐标。相比之下,我们主张一个范式移动,其中3D表示仅依赖场景颜色和几何形状,学习隐式表示无需地面真相3D几何形状,同时也从任何特定坐标系统中具有重要的独立性。这种区别对于实现可扩展性至关重要,以超越场景指编码所施加的约束。ii)本质上,视图合成更适合作为有条件的生成建模问题,类似于生成图像中的图像[25,60]。随着可用信息的增加,生成的场景变得更加限制,逐渐收敛于地面真相表示。仅给出一组稀疏的参考视图时,所需的模型应提供多个合理的预测,并利用生成表述中的固有随机性,并从自然图像统计信息和从其他图像和对象中学到的语义先验中获取见解。值得注意的是,现有的3D生成模型通常仅支持单个参考视图[20 - 23,44]。我们认为,更理想的生成配方应具有不同级别的输入信息。在这些见解的基础上,我们引入了Eschernet,这是一种图像到图像的条件扩散模型,用于视图合成。Eschernet利用了使用Dot-Product自我注意力的变压器体系结构[51],以捕获参考对目标和目标对目标视图一致性之间的复杂关系。Eschernet中的一个关键创新是相机位置编码(CAPE)的设计,专门代表4个DOF(以对象)和6个DOF相机姿势。这种编码的速率空间结构进入令牌,使模型能够仅基于其相对摄像机的转换来计算查询和密钥之间的自我注意事项。总而言之,Eschernet表现出以下非凡的特征:•一致性:埃舍内特固有地整合了视图的固定性,这要归功于相机位置编码的设计,从而鼓励了对目标对目标和目标视图视图的一致性。
基础模型是对大量数据进行预训练的大型模型。通常可以以最小的努力来适应各种下游任务。但是,由于基础模型通常是在从互联网中提出的图像或文本上进行预培训的,因此它们在植物表型等植物域中的性能受到质疑。此外,完全调整基础模型是耗时的,需要高计算能力。本文研究了植物表型设置和任务的基础模型的有效适应。我们对三个基础模型(MAE,Dino和Dinov2)进行了大量实验,对三个必需的植物表型任务:叶子计数,实例阶段和疾病分类。特别是,预先训练的骨干被冷冻,同时评估了两种不同的调整方法,即适配器调整(使用lora)和解码器调整。实验结果表明,基础模型可以充分地适应植物表型任务,从而产生与针对每个任务的最先进的模型(SOTA)模型相似的性能。尽管在不同任务上表现出很高的传递能力,但在某些情况下,精细调整的基础模型的表现比SOTA任务特定的模型稍差,这需要进一步研究。
将驾驶行为适应新的环境,库斯和法律是自主驾驶中的一个长期问题,排除了澳大利亚车辆(AVS)的广泛部署。在本文中,我们提出了LLADA,这是一种简单而强大的工具,它使人类驾驶员和自动驾驶汽车都可以通过调整其任务和动作计划来在新的地方进行访问规则,从而在任何地方开车。llada通过利用大型语言模型(LLMS)在解释本地驾驶员手册中的流量规则方面的令人印象深刻的零弹性可推广性来实现这一目标。通过广泛的用户研究,我们表明LLADA的说明可用于消除野外野外未受的情况。我们还展示了LLADA在现实世界数据集中适应AV运动计划策略的能力; Llada优于我们所有指标的基线计划。请查看我们的网站以获取更多详细信息:Llada。
大型语言模型的最新进展也在模型可解释性方面带来了新的挑战。生成模型产生新颖的内容,通常与单个正确的答案不符,因此仅确定结果的准确性比监督机器学习更为复杂。此外,可以根据语气,毒性,准确性,公平性,隐私保存以及其他可能在监督学习中具有模拟的指标来量化文本输出。我将比较监督学习的模型可解释性与可用于理解大语言模型的方法。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
本文解决了生成法定说明(CES)的挑战,涉及识别和修改最少的必要特征,以使分类器对给定图像的预测进行预测。我们提出的方法是反事实e xplanations(Time)的tept to-i mage m odels,是一种基于蒸馏的黑盒反事实技术。与以前的方法不同,此方法仅需要图像及其预测,从而忽略了分类器的结构,参数或梯度的需求。在生成反事实之前,时间将两个不同的偏见引入了文本嵌入的形式稳定扩散:与图像的结构相关联的上下文偏差和类别偏见,与目标分类器学到的类特异性特征相关。学习了这些偏见后,我们发现了使用类预测的类令牌的最佳潜在代码,并使用目标嵌入作为条件,从而产生了符合性的解释。广泛的经验研究证明,即使在黑色盒子设置中运行时,时间也可以产生可比性的解释。
雷达相机3D对象检测旨在与雷达信号与摄像机图像进行交互,以识别感兴趣的对象并定位其相应的3D绑定框。为了克服雷达信号的严重稀疏性和歧义性,我们提出了一个基于概率deno的扩散建模的稳健框架。我们设计了框架,可以在不同的多视图3D检测器上易于实现,而无需在训练或推理过程中使用LiDar Point Clouds。在特定的情况下,我们首先通过开发带有语义嵌入的轻质DENOIS扩散模型来设计框架编码器。其次,我们通过在变压器检测解码器的深度测量处引入重建训练,将查询降解训练开发为3D空间。我们的框架在Nuscenes 3D检测基准上实现了新的最新性能,但与基线检测器相比,计算成本的增加很少。
∞ 有关官僚、行政和法律义务的信息; ∞ 对补贴融资的见解,特别是对新企业的机会、融资和贡献,以及对研究和确定与商业项目一致的援助类型的支持。得益于众筹中心 (https://www.crowdfundport.eu/crowd-funding-hub/italy/),还为初创企业和中小型企业提供众筹支持; ∞ 深入分析与各个活动领域相关的经济和法律问题; ∞ 有关现有的创业文化培训活动的信息; ∞ 有关企业管理的理论和实践方面的培训和深入课程; ∞ 协助确定有能力处理初创企业和企业相关事务的地方机构和服务机构。除了主要通过个性化和一对一访谈开展的直接支持活动外,该服务还通过组织旨在传播创业文化的会议、研讨会、会议和干预措施开展频繁的地域动画活动。