我们提出了指示插道,这是一个将计算机视觉任务与Human指令保持一致的统一且通用的框架。与现有的方法相比,将先验知识整合并预先定义了每个视觉任务的输出空间(例如,构想和坐标),我们将各种视觉任务施加到人类直觉的图像操纵程序中,其输出空间是一个灵活的交互式像素空间。具体而言,该模型是建立在扩散过程的基础上的,并经过培训可以根据用户说明进行预测像素,例如将男人的左肩围绕红色或左右涂上蓝色面具。指示示例可以处理各种视觉任务,包括未识别任务(例如分割和关键点)和生成任务(例如编辑和增强)和在新颖数据集中胜过先前的方法。这代表了朝着视觉任务的通才建模界面迈出的坚实一步,在计算机视觉领域中推进了人工通用的intel。
法医分析是由需要可靠,最先进的工具和持续培训的熟练法医从业人员进行的。为了提供教育和学术界,依靠现实的培训数据集。这些数据集对于教授研究人员,验证法医工具,推进算法和进行研究至关重要。同时,法医社区面临现实数据集的缺点,这主要是由于道德和法律原因。为了克服这一挑战,先前的工作引入了几个框架,目的是创建真实证据的无问题。这些框架通过用模拟用户行为痕迹填充磁盘图像来生成合成数据集。但是,一般同意,现有框架在生成的数据集的质量方面存在一些缺点,尤其是由于将不切实际的痕迹纳入了基于GUI的环境中。回顾了共同框架的实现细节,我们发现当前的解决方案错过了逼真的痕量合成,从而降低了合成数据集的质量和实用性。通过利用计算机视觉,本文介绍了一种新颖的方法,旨在提高合成数据集的质量。我们提出了一个架构,并利用用于创建人体接口设备(HID)输入的操纵程序提供了开源实现,该输入由计算机视觉算法控制以模仿类似人类的用户行动。通过这种方式,我们提供了外部GUI自动化能力,可以比现有解决方案更现实的痕量综合,并将适用性开放到广泛的基于GUI的操作系统。与以前的研究结果相反,我们的方法独立于在虚拟机中运行的软件,通过省略自动化工件进一步优化了生成的数据集的质量。我们的实验表明,使用外部GUI自动化进行用户动作仿真会导致更大的量和更广泛的痕迹分布。因此,我们的方法可能会在此字段中重新确定数据集的质量。©2023作者。由Elsevier Ltd代表DFRWS发布,这是CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nc-nd/4.0/)下的开放访问文章。