和一个锅的不同)或意图(例如通过刀与使用它进行切割),我们人类可以毫不费力地描绘出与日常生活中日常物体的这种互动。在这项工作中,我们的目标是构建一个可以同样生成合理的手动配置的计算系统。具体来说,我们学习了一个基于扩散的常规模型,该模型捕获了3D相互作用期间手和对象的关节分布。给定一个类别的描述,例如“握着板的手”,我们的生成模型可以合成人手的相对配置和表达(见图1个顶部)。我们解决的一个关键问题是,该模型是什么好的HOI表示。通常通过空间(签名)距离场来描述对象形状,但人的手通常是通过由发音变量控制的参数网格建模的。我们提出了一个均匀的HOI表示,而不是在生成模型中对这些不同的代表进行建模,并表明这允许学习一个共同生成手和对象的3D扩散模型。除了能够合成各种合理的手和物体形状的综合外,我们的扩散模型还可以在跨任务的辅助推理之前作为通用,而这种表示是所需的输出。例如,重建或预测相互作用的问题对于旨在向人类学习的机器人或试图帮助他们的虚拟助手来说是核心重要性。重建的视频重新投影错误)或约束(例如我们考虑了这些行沿着这些行的两个经过深入研究的任务:i)从日常交互剪辑中重建3D手对象形状,ii)鉴于任意对象网格,合成了合理的人类grasps。为了利用学到的生成模型作为推论的先验,我们注意到我们的扩散模型允许在任何手动对象配置给定的(近似)log-likelihood梯度计算(近似)log-likelihoodhoodhood。我们将其纳入优化框架中,该框架结合了先前的基于可能性的指南与特定于任务的目标(例如已知对象网格的合成)推理。虽然理解手动相互作用是一个非常流行的研究领域,但现实世界中的数据集限制了3D中这种相互作用的限制仍然很少。因此,我们汇总了7种不同的现实世界交互数据集,从而导致157个对象类别的相互作用长期收集,并在这些范围内训练共享模型。据我们所知,我们的工作代表了第一个可以共同生成手和对象的生成模型,并且我们表明它允许综合跨类别的各种手动相互作用。此外,我们还经验评估了基于视频的重建和人类掌握合成的任务的先前指导的推断,并发现我们所学的先验可以帮助完成这两个任务,甚至可以改善特定于特定于任务的状态方法。
在最近的研究中,已对开放式摄制对象检测任务进行了大量关注,旨在概括训练期间标记的类别的有限级别,并检测推理时任意类别名称所描述的对象。与常规对象检测相比,打开的词汇对象检测在很大程度上扩展了对象检测类别。但是,它依赖于计算图像区域与一组具有验证视觉和语言模型的任意类别名称之间的相似性。这意味着,尽管具有开放式的性质,但该任务仍然需要在推理阶段的预定义对象类别。这提出了一个问题:如果我们在推理中对对象类别没有确切的了解,该怎么办?在本文中,我们称之为新的设置为生成性开放式对象检测,这是一个更普遍和实际的问题。为了解决它,我们将对象检测形式为生成问题,并提出了一个名为generateu的简单框架,该框架可以检测密集的对象并以自由形式的方式生成其名称。尤其是,我们采用可变形的DETR作为区域促成生成器,其语言模型将视觉区域转换为对象名称。为了评估自由形式的对象划分任务,我们介绍了一种评估方法,旨在定量测量生成量的性能。广泛的实验表明我们的生成量强烈的零射击性能。代码可在以下网址获得:https://github.com/foundationvision/generateu。例如,在LVIS数据集上,我们的GenerateU在推理过程中属于类别名称,即类别名称无法看到类别名称,即使类别名称看不见类别名称,我们的GenerateU也可以与开放式唱机对象检测方法GLIP相当。
事件相机具有高时间分辨率、高动态范围、低功耗和高像素带宽等特点,为特殊环境中的物体检测提供了独特的功能。尽管有这些优势,事件数据固有的稀疏性和异步性对现有的物体检测算法提出了挑战。脉冲神经网络 (SNN) 受到人脑编码和处理信息方式的启发,为这些困难提供了潜在的解决方案。然而,在当前的实现中,它们在使用事件相机进行物体检测方面的性能受到限制。在本文中,我们提出了脉冲融合物体检测器 (SFOD),一种基于 SNN 的简单有效的物体检测方法。具体而言,我们设计了一个脉冲融合模块,首次实现了应用于事件相机的 SNN 中不同尺度特征图的融合。此外,通过整合我们在 NCAR 数据集上对主干网络进行预训练期间进行的分析和实验,我们深入研究了脉冲解码策略和损失函数对模型性能的影响。从而,我们建立了基于 SNN 的当前最佳分类结果,在 NCAR 数据集上实现了 93.7% 的准确率。在 GEN1 检测数据集上的实验结果表明,SFOD 实现了 32.1% 的当前最佳 mAP,优于现有的基于 SNN 的方法。我们的研究不仅强调了 SNN 在事件摄像机物体检测中的潜力,而且推动了 SNN 的发展。代码可在 https://github.com/yimeng-fan/SFOD 获得。
摘要:过去二十年来在数字平台上出现的超级目标广告现在被更有效地理解为调整广告,这是一个充满活力且不断发展的过程,在该过程中,广告在实时对用户进行了不断地“优化”广告。在Rieder和Hofmann(2020)之后,我们旨在为“观察练习”算法调整的数字广告制定一个框架。我们借鉴了澳大利亚广告天文台的研究以及关于数字酒精广告的多年研究项目。在这些项目中,我们构建了自定义的工具,以从平台广告库中收集广告,并通过公民科学家的数据捐赠。我们认为,数字广告的力量越来越符合其调整的能力。平台的广告透明度工具引起了我们对广告的关注,但是我们需要发展能够观察动态的社会技术调整过程的能力。我们概念化了广告的“调谐序列”的可视化,作为广告“库”的替代方法。我们认为,开发观察这些调谐序列的能力更好地阐明了建立公众理解和问责制所需的观察方式,他们都在寻找公众的理解和问责制。
对象检测在各种自主系统中至关重要,例如监视,自动驾驶和驾驶员的稳定性,通过识别行人,车辆,交通信号灯和标志来确保安全。然而,诸如雪,雾和雨等不利天气条件构成了挑战,具有检测准确性,冒险发生事故和大坝。这清楚地表明了在所有天气条件下都起作用的强大观察检测解决方案的必要性。我们采用了三种策略来增强不利天气中的基于深度学习的对象检测:对全球全天候图像进行培训,对图像进行培训,并具有合成的增强天气噪声,并将对象的变形与不利天气图像denosistighting进行整合。使用分析方法,GAN网络和样式转移网络产生合成天气噪声。我们使用BDD100K数据集中的真实世界全天候图像和用于评估未见现实世界的不利天气图像的评估,通过训练对象进行分割模型比较了这些策略的性能。通过降级现实世界的不利天气图像以及对物体检测的结果和原始嘈杂图像的结果进行了评估,从而评估了不利天气。我们发现,使用全天候现实世界图像训练的模型表现最佳,而对对象检测进行对象检测的策略则表现最差。
摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
1 日内瓦大学儿科肿瘤学和血液学 CANSEARCH 研究平台,瑞士日内瓦 1205;nicolas.waespe@ispm.unibe.ch(NW);sven.strebel@ispm.unibe.ch(SS);simona.mlakar@unige.ch(SJM);tiago.nava@unige.ch(TN)2 伯尔尼大学社会与预防医学研究所,瑞士伯尔尼 3012;claudia.kuehni@ispm.unibe.ch 3 伯尔尼大学细胞与生物医学科学研究生院(GCB),瑞士伯尔尼 3012 4 伯尔尼大学健康科学研究生院(GHS),瑞士伯尔尼 3012 5 查尔斯-布鲁诺癌症中心,CHU Sainte-Justine 研究中心,儿科系,加拿大魁北克省蒙特利尔 H3T 1C5; maja.krajinovic@umontreal.ca 6 加拿大蒙特利尔 CHU Sainte-Justine 儿科系临床药理学部,魁北克省蒙特利尔 H3T 1C5,加拿大 7 加拿大蒙特利尔大学医学院药理学系,魁北克省蒙特利尔 H3T 1J4,加拿大 8 伯尔尼大学医院内科学系儿科血液学/肿瘤学分部,瑞士伯尔尼 3012 伯尔尼 9 日内瓦大学医院妇女、儿童和青少年部,儿科肿瘤学和血液学分部,瑞士日内瓦 1205 * 通讯地址:Marc.Ansari@hcuge.ch;电话:+41-79-553-6100
雷达相机3D对象检测旨在与雷达信号与摄像机图像进行交互,以识别感兴趣的对象并定位其相应的3D绑定框。为了克服雷达信号的严重稀疏性和歧义性,我们提出了一个基于概率deno的扩散建模的稳健框架。我们设计了框架,可以在不同的多视图3D检测器上易于实现,而无需在训练或推理过程中使用LiDar Point Clouds。在特定的情况下,我们首先通过开发带有语义嵌入的轻质DENOIS扩散模型来设计框架编码器。其次,我们通过在变压器检测解码器的深度测量处引入重建训练,将查询降解训练开发为3D空间。我们的框架在Nuscenes 3D检测基准上实现了新的最新性能,但与基线检测器相比,计算成本的增加很少。
■ 见下文,以及目标 4 的进展情况 ○ 提供第 1 阶段 CBE 课程的公开记录,○ 提供专业发展以支持教师完成第 1 阶段 CBE 课程。○ KRHS - 正在制定学习目标和绩效量表,将于 22-23 学年结束前完成。○ KRMS - 第 1 阶段的大部分领域已经完成,少数科目修改了以前的工作。○ 小学 - 第 1 阶段的大部分领域已经完成,少数科目修改了以前的工作。○ 可公开访问的 Atlas Rubicon 链接在此处提供:(https://kearsarge-public.rubiconatlas.org/home)○ 信息通信技术 (ICT) - 已为 K-12 开发了 ICT 第 1 阶段,包括能力、学习目标和绩效量表。 ○ 3 月 31 日和 5 月 18 日为专业发展日,专门用于第 1 阶段和第 2 阶段 CBE 工作 ● 开发 CBE 课程的第 2 阶段(学生学习的评估和报告): ○ 提供专业发展和适当的资源,为教师开发和实施 CBE 课程的第 2 阶段做好准备。 ○ 领导力书籍研究(“公平评分”);与 Carolyn Eastman 一起参加“学习者画像”研讨会;与 NHLI 的 Brian Stack 一起参加 CBE 评估研讨会。 ○ 对教师进行质量绩效评估模型培训,作为指导本地设计常见评估和使用验证协议的工具 ○ 完成书籍阅读并在领导团队中讨论 ○ 以草稿形式完成学习者画像;两次 NHLI 研讨会,POL 团队出席,确定了基本属性。 ○ 学校董事会于 2023 年 4 月 20 日介绍 POL 的状态。
摘要 - 智能机器人技术在维护,维修和大修(MRO)机库操作方面具有重要意义,其中移动机器人可以在其中导航复杂而动态的环境,以进行飞机视觉检查。飞机机库通常忙碌而变化,形状和尺寸各不相同,呈现出严格的障碍物和条件,可能导致潜在的碰撞和安全危害。这使得障碍物检测和避免对安全有效的机器人导航任务至关重要。常规方法已在计算问题上应用,而基于学习的方法的检测准确性受到限制。本文提出了一个基于视觉的导航模型,该模型将预训练的Yolov5对象检测模型集成到机器人操作系统(ROS)导航堆栈中,以优化复杂环境中的障碍物检测和避免。该实验在ROS-Gazebo模拟和Turtlebot3 Waffle-Pi机器人平台中进行了验证和评估。结果表明,机器人可以越来越多地检测并避免障碍物,而无需碰撞,同时通过不同的检查点导航到目标位置。关键字 - 自主导航,对象检测,避免障碍物,移动机器人,深度学习