作为基因编写领域的先驱,Tessera Therapeutics 正在通过完善将短信息或长信息插入任何基因组的能力来改变人类治疗疾病的方式。Tessera 寻求一种解决方案,以确保超过 12 TB 的科学数据在由湿科学家和计算生物学家组成的大型跨职能团队中可查找、可访问、可互操作和可重复使用 (FAIR)。Tessera 利用 Quilt 和 Nextflow 的组合来加速其基因编辑发现的上市。
医学是深度学习模型的重要应用领域。该领域的研究是医学专业知识和数据科学知识的结合。在本文中,我们引入了一个开放的三维颅内动脉瘤数据集 IntrA,而不是二维医学图像,这使得基于点和基于网格的分类和分割模型的应用成为可能。我们的数据集可用于诊断颅内动脉瘤和提取颈部以进行医学和深度学习其他领域(如正常估计和表面重建)的夹闭手术。我们通过测试最先进的网络提供了一个大规模分类和部分分割的基准。我们还讨论了每种方法的性能,并展示了我们数据集的挑战。发布的数据集可以在这里访问:https://github.com/intra3d2019/IntrA。
为了推进基于学习的融化算法的研究,已经开发了各种合成雾数据集。但是,现有的数据集使用大气散射模型(ASM)或十个实时渲染引擎而努力产生光真实的雾图像,以准确模仿实际的成像过程。这种限制阻碍了模型从合成到真实数据的有效概括。在本文中,我们引入了旨在生成照片现实的雾图图像的端到端模拟管道。该管道全面构建了整个基于物理的雾化场景成像,与现实世界图像捕获的方法紧密相位。基于此管道,我们提出了一个名为Synfog的新合成雾数据集,该数据集具有天空和主动照明条件以及三个级别的雾气状态。实验结果表明,与其他人相比,在与其他模型中相比,与其他人相比,在synfog上训练的模型在视觉感知和检测准确性方面表现出了较高的性能。
收集了有关2697种有机化学物质的水生生态毒理学的经验数据和计算机数据,以编译数据集,以评估当前质量结构活动关系(QSAR)模型和软件平台的预测能力。本文档为其创建提供了数据集及其数据管道。经验数据是从美国EPA Ecotox知识库(Ecotox)和EFSA(欧洲食品安全局)收集的,报告“ XML模式中的农药生态毒性学层的数据输入研究终点 - 数据库 - 数据库中”。仅保留了经合组织建议的藻类,水坝和鱼类的数据。使用Ecosar,Vega和Tox-Icity估计软件工具(T.E.S.T.)计算每种化学物质和六个端点中的QSAR毒性预测平台。最后,数据集用微笑,Inchikey,PKA和LOGP修改,从Webchem和PubChem收集。©2023作者。由Elsevier Inc.出版这是CC下的开放式访问文章(http://creativecommons.org/licenses/4.0/)
现代生活的几乎所有方面都取决于太空技术。多亏了计算机视频的一般和深度学习技术的巨大进步,几十年来,全世界都见证了将深度学习的发展用于解决太空问题的问题,例如自动驾驶机器人,诸如示踪剂,类似昆虫的机器人,类似昆虫的机器人和SpaceCraft的健康监测。这些只是一些在深度学习的帮助下具有高级空间行业的重要例子。但是,深度学习模型的成功需要大量的培训数据才能具有不错的性能,而另一方面,用于培训深度学习模型的公开空间数据集非常有限。当前没有用于基于太空的对象检测或实例分割的公共数据集,部分原因是手动注释对象分割掩码非常耗时,因为它们需要像素级标签,更不用说从空间获取图像的挑战了。在本文中,我们的目标是通过释放数据集以进行航天器检测,实例分割和零件识别来填补这一差距。这项工作的主要贡献是使用太空设置和卫星的图像开发数据集,并具有丰富的注释,包括绑定的航天器和口罩的框架盒对物体部分的水平,这些盒子是通过自动程序和手动努力的混合而获得的。我们还提供了对象检测和Intance Sementation的最新方法作为数据集的基准。可以在https://github.com/yurushia1998/satellitedataset上找到下载建议数据集的链接。
了解人类的社会行为对于综合愿景和机器人技术至关重要。微观的观察(例如,分裂行动)不足,需要采取一种全面的方法来考虑个人行为,组内动态和社会群体层次,以彻底理解。要解决数据集限制,本文引入了JRDB-Social,JRDB的扩展[2]。旨在填补跨室内和室外社会环境的人类理解的空白,JRDB-Social提供了三个层次的注释:个体属性,组内侵入和社会群体环境。该数据集旨在增强我们对机器人应用的人类社会动态的理解。利用最近的尖端多模式大型语言模型,我们评估了我们的基准,以表达其破译社会人类行为的能力。
摘要。分析建筑模型的可用面积、建筑安全性或能源分析需要空间和相关对象的功能分类数据。自动化空间功能分类有助于减少输入模型准备工作量和错误。现有的空间功能分类器使用空间特征向量或空间连通性图作为输入。深度学习 (DL) 图像分割方法在空间功能分类中的应用尚未被研究。作为解决这一差距的第一步,我们提出了一个数据集 SFS-A68,它由 68 个公寓楼空间布局的数字 3D 模型生成的输入和地面真实图像组成。该数据集适用于开发用于空间功能分割的 DL 模型。我们使用该数据集训练和评估基于迁移学习和从头开始训练的实验空间功能分割网络。测试结果证实了 DL 图像分割对空间功能分类的适用性。
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
土地覆盖和土地利用的监测和评估在自然资源管理中至关重要。遥感数据和图像处理技术已广泛应用于城市和农村地区的土地描述和变化检测。关于土地利用或土地覆盖的详细信息是各个领域的宝贵信息来源,例如城市规划[30,43]、变化检测[17]、植被监测[2],甚至军事侦察。土地覆盖变化是环境变化[38,37]、森林覆盖动态[32]和退化[21]的指标,也是生物多样性监测的方法之一[31]。此类数据可用于研究景观中发生的过程,例如各种土地覆盖之间的流动 [ 16 ],从而可以研究城市化、森林砍伐、农业强度和其他人为变化的速度。
人类情感识别一直是心理物理学和计算机视觉的重要主题。但是,经常发布的数据集有许多局限性。进行检查,大多数数据集都包含仅包含有关面部表情的信息的框架。由于以前的数据集的局限性,很难理解影响人类识别的机制,或者在这些数据集中训练的计算机视觉模型上对人类的识别良好。在这项工作中,我们介绍了一个全新的大型数据集,基于视频的情感并影响上下文数据集(VEATIC)中的跟踪,可以征服先前数据集的限制。Veatic在好莱坞电影,纪录片和家庭视频中有124个视频片段,并通过实时注释进行了连续的价和唤醒评级。与数据集一起,我们采用了一项新的计算机视觉任务,以通过每个视频框架中的上下文和字符信息来推断所选字符的影响。此外,我们提出了一个简单的模型来基准这项新的计算机视觉任务。我们还使用数据集与其他类似数据集进行了预处理模型的性能。实验显示了通过VEATIC验证的模型的竞争结果,表明VEATIC的普遍性。我们的数据集可从https://veatic.github.io获得。