本文报告了使用基于快速串行视觉呈现 (RSVP) 范式的脑机接口 (BCI) 系统获取的基准数据集。该数据集包含 64 名健康受试者 (sub1, ..., sub64) 在执行目标图像检测任务时的 64 通道脑电图 (EEG) 数据。对于每个受试者,数据包含两组(“A”和“B”)。每组包含两个块,每个块包括 40 次试验,对应 40 个刺激序列。每个序列包含 100 张以 10 Hz(每秒 10 张图像)呈现的图像。刺激图像是两类街景图像:有人的目标图像和没有人的非目标图像。目标图像在刺激序列中随机呈现,概率为 1 ∼ 4%。在刺激呈现过程中,要求受试者以主观的方式搜索目标图像并忽略非目标图像。为了保留所有原始信息,数据集是未经任何处理的原始连续数据。一方面,该数据集可用作基准数据集,用于比较基于 RSVP 的 BCI 中的目标识别算法。另一方面,该数据集可用于设计新的系统图并评估其 BCI 性能,而无需通过离线模拟收集任何新数据。此外,该数据集还为基于 RSVP 的 BCI 中的事件相关电位 (ERP) 和稳态视觉诱发电位 (SSVEP) 的表征和建模提供了高质量数据。该数据集可从 http://bci.med.tsinghua.edu.cn/download.html 免费获取。
摘要——提出了一种新的自然色彩映射方法,将目标图像的渲染图像输出与庞大的参考图像数据库进行匹配。已经在使用的方法最终会产生假色。如果目标图像的“全局”颜色统计数据与实际夜视场景的统计数据差别太大,就会导致视觉不自然。在当今情况下,美国军方使用最先进的夜视系统,该系统结合了图像增强、可见图像和热图像。然后通过“图像超分辨率”用深度卷积网络处理融合数据。然后使用 YOLO 算法识别视觉中的主体(即背景、前景和物体),这有助于 AI 根据参考图像数据库识别和匹配颜色。由于系统 AI 结合了庞大的数据库学习,因此夜视图像中目标场景的预测配色方案匹配的概率很高。有许多可用的颜色映射方法,但本研究论文使用的是直方图匹配。
深度强化学习(DEEP RL)最近取得了重大进步,使代理可以直接从高维图像像素直接处理视频游戏,运动和操纵等复杂任务。尽管取得了这些成功,Deep RL通常依赖于特定领域的奖励功能,这些奖励功能需要专家知识。在本文中,我们提出了一种目标条件的视觉RL方法,该方法可以使用目标图像和有限的演示来有效地学习灵巧的对象操纵,而无需依赖于域特异性的密集奖励功能。我们的方法利用了有限的演示来预先培训策略,然后通过在策划和在线互动数据之间进行平衡采样来对其进行处理。在线相互作用期间,它用目标图像和VIP模型产生的目标条件奖励代替了人类指定的密集奖励功能。实验结果表明,即使在稀疏或没有奖励的环境中,我们的方法在敏捷的物体操纵任务中达到了较高的样品效率。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
提供给文本对图像差异模型的提示的质量决定了生成的内容对用户意图的忠诚程度,通常需要“及时工程”。要通过及时的工程来利用目标图像的视觉概念,当前方法在很大程度上通过优化然后将它们映射到伪tokens来依赖嵌入反演。然而,使用这种高维矢量表示是具有挑战性的,因为它们缺乏语义和可解释性,并且只允许使用它们时模拟矢量操作。相反,这项工作着重于反转扩散模型,以直接获得可靠的语言提示。这样做的挑战在于,由此产生的优化问题从根本上是离散的,提示的空间呈较大。这使得使用标准优化技术,例如随机梯度下降,困难。为此,我们利用延迟的投影方案来访问代表模型中词汇空间的提示。此外,我们利用了扩散过程的时间段与图像中不同级别的细节相差的发现。后来的,嘈杂的,前传扩散过程的时间段对应于语义信息,因此,此范围内的迅速反转提供了代表图像语义的令牌。我们表明,我们的方法可以确定目标图像的语义可解释和有意义的提示,该提示可用于合成具有相似内容的多样化图像。我们说明了优化提示在进化图像生成和概念删除中的应用。
摘要 — 在逆向工程和硬件保证领域,大多数数据采集是通过电子显微镜技术(如扫描电子显微镜 (SEM))完成的。然而,与光学成像中的同行不同,只有有限数量的技术可用于增强和提取原始 SEM 图像中的信息。在本文中,我们介绍了一种从 SEM 图像中分割出集成电路 (IC) 结构的算法。与本文讨论的现有算法不同,该算法是无监督的、无参数的,并且不需要关于噪声模型或目标图像中特征的先验信息,这使得它在低质量图像采集场景中也有效。此外,还报告并讨论了该算法在 IC 中各种结构和层上的应用结果。索引术语 — 逆向工程、硬件保证、SEM、分割
摘要:我们表明,通过扩展主动推理框架,可以在目的论框架中制定目标导向的行动规划和生成。所提出的模型建立在变分递归神经网络模型上,具有三个基本特征。这些特征是:(1)可以为静态感官状态(例如要达到的目标图像)和动态过程(例如围绕物体移动)指定目标;(2)该模型不仅可以生成目标导向的行动计划,还可以通过感官观察来理解目标;(3)该模型根据从过去的感官观察推断出的当前状态的最佳估计,为给定目标生成未来的行动计划。通过在模拟移动代理以及执行对象操作的真实人形机器人上进行实验来评估所提出的模型。
近期,深度学习技术在医学图像配准中的应用与传统技术相比,大幅减少了配准时间并逐步提高了配准精度。大多数基于学习的配准方法将此任务视为单向问题。因此,仅考虑从运动图像到目标图像的对应关系。然而,在某些医疗程序中,需要执行双向配准。与其他基于学习的配准不同,我们提出了一种具有逆一致性的配准框架。所提出的方法以无监督的方式同时学习前向变换和后向变换。我们在公开的 LPBA40 MRI 数据集上对该方法进行训练和测试,并证明其比基线配准方法具有更强的性能。
摘要。任意的神经风格转移旨在通过引用提供的样式图像来造型内容。尽管为实现内容保存和样式转移性而进行了各种努力,但由于内容和样式功能的重复导致了不愉快的图像人工制品,因此对此任务的学习表现仍然具有挑战性。在本文中,我们学习了从信息理论的角度进行动机的风格的紧凑神经表示。在特殊的情况下,我们在可逆流网络的顺序模块上执行压缩表示,以减少特征冗余,而失去内容保存能力。我们使用Barlow Twins损失来减少信道依赖性,从而提供更好的内容,并优化参考图像和目标图像之间样式代表的Jensen-Shannon差异,以避免使用 - 和
出色的机器视觉系统需要具有基本功能,例如稳定的获取,有效的处理,执行准确性和高质量的图像。在典型的图像采集系统中,有光源,镜头,相机,采集协议,数据传输和数据处理。摄像机与镜头和照明单元合作,以确保高质量的原始图像并最大化目标特征和背景之间的差异,并通过合适的传输协议进行稳定的传输和收集。最后,通过软件从背景中提取目标特征信息,并执行有效的算法处理以获得目标图像。Hikrobot致力于为客户提供视觉系统的一站式采购服务。产品涵盖工业区域扫描摄像头,线扫描摄像头,板级摄像头,红外摄像头以及框架抓框,镜头,光源和电缆等配件。实现视觉系统的构建,供客户满足各种行业的各种应用需求。