本文件是作为美国政府资助工作的记录而编写的。尽管我们认为本文件包含正确的信息,但美国政府及其任何机构、加利福尼亚大学董事会及其任何员工均不对所披露的任何信息、设备、产品或流程的准确性、完整性或实用性做任何明示或暗示的保证,也不承担任何法律责任,也不表示其使用不会侵犯私有权利。本文中以商品名、商标、制造商或其他方式提及任何特定商业产品、流程或服务并不一定构成或暗示美国政府或其任何机构或加利福尼亚大学董事会对其的认可、推荐或支持。本文中表达的作者的观点和意见不一定代表或反映美国政府或其任何机构或加利福尼亚大学董事会的观点和意见。
人类的生命中有铰接的物体。对清晰的物体的综合理解,即外观,结构,物理特性和语义,将使许多研究社区受益。作为当前的符号对象理解解决方案通常是基于具有无物理属性的CAD模型的合成对象数据集,从而阻止了在视觉和机器人任务中的实现对现实世界应用的满足概括。为了弥合差距,我们提出了AKB-48:一个大规模的对象k nowledge b ase,由48个猫咪的2,037个现实世界3D 3D铰接式对象模型组成。每个对象由知识图Artikg描述。为了构建AKB-48,我们提出了快速的发音知识建模(FARM)管道,可以在10-15分钟内满足铰接对象的Artikg,并在很大程度上降低了Real
摘要:近年来,技术彻底改变了生活的所有领域。由于编程是软件技术的核心,因此,对程序员的需求也必须日复一日地增加。随着增强现实(AR)和计算机视觉(CV)领域的进步,我们现在可以为教育领域的独特体验开发应用程序。本研究旨在为小学生开发一种学习编程技能的游戏。为学生提供了作为我们游戏标记的卡片。每个标记在AR中都具有独特的编程块,这会导致我们的游戏角色执行一定的动作。学生需要以正确的方式放置这些块才能完成给定的任务。因此,它使学生能够以吸引他们的方式学习一些基本的编程技能。
通过 AR、VR、MR 或 XR 技术进行的技能训练可用于练习以下技能:团队合作、时间管理、注意力控制、想象的身体控制、实际工作中的可视化[2]。利用技术进行工作技能训练例如通过电脑游戏,如果游戏内容、信息、情况和模式发生变化,与工作和现实联系起来,那么玩游戏实际上是一种技能训练方式。技术可以分为工具和情况。1)使用技术练习虚拟工具,如虚拟手术、虚拟机器人控制。[3]当学习者需要使用真实工具时,学习者可以流利而正确地使用它。2)利用技术在虚拟情境中进行训练,如消防训练、虚拟战斗、虚拟工厂和虚拟危险区域。[4]当学习者处于
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。此方法在各个领域都有许多应用,包括图像检索系统,医学和各种行业。但是,尽管图像字幕进行了重要的研究,但大多数研究都集中在高质量的图像或受控环境上,而没有探索现实世界图像字幕的挑战。现实世界的图像字幕涉及复杂而动态的环境,具有许多关注点,图像通常在质量上非常差,甚至对于人类而言,这也是一项艰巨的任务。本文评估了在不同编码机制,语言解码器和培训程序之上构建的各种模型的性能,使用新创建的现实世界数据集由使用MIT室内场景数据集构建的65多个不同场景类的800多个图像组成。该数据集使用IC3方法字幕,该方法通过汇总来自图像的唯一视图点的标准图像字幕模型所涵盖的详细信息来生成更具描述性字幕。
视觉识别生态系统(例如 ImageNet、Pascal、COCO)在现代计算机视觉的发展中发挥了不可否认的作用。我们认为,在这些生态系统出现之前,交互式和具身视觉 AI 已经达到了与视觉识别类似的发展阶段。最近,各种合成环境已被引入以促进具身 AI 的研究。尽管取得了这些进展,但在模拟中训练的模型如何很好地推广到现实这个关键问题仍然基本上没有答案。为模拟到现实的具身 AI 创建一个可比的生态系统提出了许多挑战:(1)问题固有的交互性,(2)现实世界和模拟世界之间需要紧密结合,(3)复制可重复实验的物理条件的难度,(4)以及相关成本。在本文中,我们引入了 R OBO THOR 来使交互式和具身视觉 AI 的研究民主化。 R OBO THOR 提供模拟环境框架
本文介绍了一种使用心电图 (ECG) 早期检测心脏异常的新型定制混合方法。ECG 是一种生物电信号,有助于监测心脏的电活动。它可以提供有关心脏正常和异常生理的健康信息。早期诊断心脏异常对于心脏病患者避免中风或心脏猝死至关重要。本文的主要目的是检测可能损害心脏功能的关键心跳。首先,改进的 Pan-Tompkins 算法识别特征点,然后进行心跳分割。随后,提出了一种不同的混合深度卷积神经网络 (CNN) 在标准和实时长期 ECG 数据库上进行实验。这项工作成功地对几种心跳异常进行了分类,例如室上性异位搏动 (SVE)、心室搏动 (VE)、心室内传导障碍搏动 (IVCD) 和正常搏动 (N)。所获得的分类结果显示,使用 MIT-BIH 数据库的分类准确率达到 99.28%,F 1 分数为 99.24%,而使用实时获取的数据库的分类准确率下降为 99.12%。
摘要:我们提出了 BEHAVIOR-1K,一个以人为本的机器人综合模拟基准。BEHAVIOR-1K 包括两个部分,分别由“您希望机器人为您做什么?”这一广泛调查的结果指导和推动。第一个部分是定义 1,000 种日常活动,基于 50 个场景(房屋、花园、餐厅、办公室等),其中有 5,000 多个对象,并标注了丰富的物理和语义属性。第二个部分是 O MNI G IBSON,这是一个新颖的模拟环境,它通过逼真的物理模拟和刚体、可变形体和液体的渲染来支持这些活动。我们的实验表明,BEHAVIOR-1K 中的活动是长期的并且依赖于复杂的操作技能,这两者对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,我们提供了一项初步研究,研究如何在模拟公寓中使用移动机械手学到的解决方案转移到现实世界中。我们希望 BEHAVIOR-1K 的人性化本质、多样性和现实性能够使其对具身化 AI 和机器人学习研究有价值。项目网站:https://behavior.stanford.edu。
深度学习方法有可能减轻放射科医生处理繁琐的,耗时的任务,例如检测和细分病理病变[1],但是在医学成像的背景下对神经网络的培训面临着主要的挑战:它们需要训练大量图像,因为这是很难获得的,因为在许多方面都可以限制医疗信息,并且由于许多方面的范围限制了其他方面的范围。此外,虽然在世界各地的医院数据库中可以提供相对较大的医学图像,但这些图像是未标记的,并且不同的机构以派遣和不均匀的方式保存医疗图像,这使得它们在较大的数据库中收集它们。在这种情况下,从头开始生成医学图像的方法可能引起人们的极大兴趣。生成建模是机器学习的一个子字段,它在产生新的高质量自然图像(例如面部照片[2])方面具有令人印象深刻的精力[2],并应用于语音综合[3]和磁共振图像重建等任务[4]。如果可以教导生成模型来产生现实且多样化的新医学图像,那么它们将具有很有吸引力的潜力,可以显着增加可用于深神经网络培训的图像数量,因此可以帮助提高这些网络的准确性[5-7]。