文本到图像模型近年来已显示出进展。随着这一进展,从文本中生成向量图也已提出。svg是向量图形的流行效果,SVG代表带有XML文本的场景。因此,大型语言模型可以直接处理SVG代码。考虑到这一点,我们专注于使用LLMS编辑SVG。用于定量评估LLMS编辑SVG的能力,我们提出了SVGeditBench。svgeditBench是评估LLMS编辑SVG代码能力的基准。在提议的基准下进行评估时,我们还显示了GPT-4和GPT-3.5结果。在实验中,GPT-4在定量和质量上都显示出与GPT-3.5的优势。该数据集可在https://github.com/mti-lab/svgeditBench上找到。
我们对一项名为动力电池检测(PBD)的新任务进行了全面的研究,该任务旨在从 X 射线图像中定位密集的阴极和阳极板端点,以评估动力电池的质量。现有制造商通常依靠人眼观察来完成 PBD,这使得很难平衡检测的准确性和效率。为了解决这个问题并让更多人关注这个有意义的任务,我们首先精心收集了一个称为 X 射线 PBD 的数据集,该数据集包含从 5 家制造商的数千个动力电池中选择的 1,500 张不同的 X 射线图像,具有 7 种不同的视觉干扰。然后,我们提出了一种基于分割的新型 PBD 解决方案,称为多维协作网络(MDCNet)。借助线和计数预测器,可以在语义和细节方面改进点分割分支的表示。此外,我们设计了一种有效的距离自适应掩模生成策略,可以缓解由板分布密度不一致引起的视觉挑战,从而为 MDCNet 提供稳定的监督。无需任何花哨的修饰,我们基于分割的 MDCNet 始终优于其他各种角点检测、人群计数和基于一般/微小物体检测的解决方案,使其成为有助于促进 PBD 未来研究的强大基础。最后,我们分享了一些潜在的困难和未来研究的工作。源代码和数据集将在 X-ray PBD 上公开提供。
文献和多位专家指出了大型语言模型(LLM)的许多潜在风险,但对实际危害的直接测量仍然很少。AI风险评估到目前为止一直集中在衡量模型的功能上,但是模型的功能只是风险的指标,而不是衡量风险的指标。更好地建模和量化AI风险方案可以帮助桥接这种断开连接,并将LLM的功能与有形现实世界的危害联系起来。本文通过证明如何使用现有的AI基准来促进风险估计的创建,从而为该领域做出了早期贡献。我们描述了一项试点研究的结果,其中专家使用AI基准Cybench的信息来生成概率估计。我们表明,对于此目的,该方法似乎很有希望,同时指出可以进一步加强其在定量AI风险评估中的应用。
纳米孔测序是第三代测序技术,具有生成长阅读序列并直接测量DNA/RNA分子的修改,这使其非常适合生物学应用,例如人类端粒对象至tomemere(T2T)基因组组装,Ebola Virus Surveillance和Covid-19 Mrna vaccine vaccine vacine vaccine vacine vaccine vaccine vaccine vacine。但是,纳米孔测序数据分析的各种任务中计算方法的准确性远非令人满意。例如,纳米孔RNA测序的碱基调用精度约为90%,而目标的基础精度约为99.9%。这凸显了机器学习社区的迫切需要。一种阻止机器学习研究人员进入该领域的瓶颈缺乏大型集成基准数据集。为此,我们提出了纳米巴塞利布(Nanobaselib),这是一个综合的多任务台上数据集。它将16个公共数据集与纳米孔数据分析中的四个关键任务进行了超过3000万个读取。为了促进方法开发,我们已经使用统一的工作流进行了预处理所有原始数据,并以统一的格式存储了所有中级结果,分析了针对四个基准测试任务的各种基线方法分析的测试数据集,并开发了一个软件包来轻松访问这些结果。纳米巴斯利布可在https://nanobaselib.github.io上找到。
本文报告了使用基于快速串行视觉呈现 (RSVP) 范式的脑机接口 (BCI) 系统获取的基准数据集。该数据集包含 64 名健康受试者 (sub1, ..., sub64) 在执行目标图像检测任务时的 64 通道脑电图 (EEG) 数据。对于每个受试者,数据包含两组(“A”和“B”)。每组包含两个块,每个块包括 40 次试验,对应 40 个刺激序列。每个序列包含 100 张以 10 Hz(每秒 10 张图像)呈现的图像。刺激图像是两类街景图像:有人的目标图像和没有人的非目标图像。目标图像在刺激序列中随机呈现,概率为 1 ∼ 4%。在刺激呈现过程中,要求受试者以主观的方式搜索目标图像并忽略非目标图像。为了保留所有原始信息,数据集是未经任何处理的原始连续数据。一方面,该数据集可用作基准数据集,用于比较基于 RSVP 的 BCI 中的目标识别算法。另一方面,该数据集可用于设计新的系统图并评估其 BCI 性能,而无需通过离线模拟收集任何新数据。此外,该数据集还为基于 RSVP 的 BCI 中的事件相关电位 (ERP) 和稳态视觉诱发电位 (SSVEP) 的表征和建模提供了高质量数据。该数据集可从 http://bci.med.tsinghua.edu.cn/download.html 免费获取。
脑机接口 (BCI) 提供了一种替代的交流方式,在过去 20 年里引起了人们日益增长的兴趣。具体来说,对于基于稳态视觉诱发电位 (SSVEP) 的 BCI,频率识别方法和数据共享已经有了显著的改进。然而,这个领域的公共数据库数量仍然有限。因此,我们在研究中提出了一个面向 BCI 应用的 BE 基准数据库 (BETA)。BETA 数据库由 70 名执行 40 个目标提示拼写任务的受试者的 64 通道脑电图 (EEG) 数据组成。BETA 的设计和获取是为了满足现实世界应用的需求,它可以用作这些场景的试验台。我们通过一系列分析验证了数据库,并对 BETA 上的十一种频率识别方法进行了分类分析。我们建议分别使用宽带信噪比 (SNR) 和 BCI 商来表征单次试验和人群水平的 SSVEP。BETA 数据库可从以下链接下载 http://bci.med.tsinghua.edu.cn/download.html。
南极沿海冰盖 (AIS) 的表面融化决定了其冰架的生存能力和地面冰盖的稳定性,但迄今为止,现场融化速率估计值非常少。这里我们提供了来自东南极半岛 (AP) 和东南极洲沿海毛德皇后地 (DML) 的九个站点的现场表面融化速率和能量平衡的基准数据集,其中七个位于 AIS 冰架上。来自八个自动气象站和一个人工气象站 (Neumayer) 的气象时间序列,长度从 15 个月到近 24 年不等,作为能量平衡模型的输入,以获得一致的表面融化速率和能量平衡结果。我们发现表面融化速率表现出很大的时间、空间和过程变化。沿海 DML 的间歇性夏季融化主要由短波辐射的吸收驱动,而东 AP 的非夏季融化事件发生在焚风事件期间,焚风事件迫使大量向下的显热湍流通量。我们使用原位表面融化速率数据集来评估区域大气气候模型 RACMO2 的融化速率,并验证 QuikSCAT 卫星的融化产品。
南极沿海冰盖 (AIS) 的表面融化决定了其冰架的生存能力和地面冰盖的稳定性,但迄今为止,现场融化速率估计值非常少。这里,我们提供了来自东南极半岛 (AP) 和东南极洲沿海毛德皇后地 (DML) 的九个站点的现场表面融化速率和能量平衡的基准数据集,其中七个位于 AIS 冰架上。来自八个自动气象站和一个人工气象站 (Neumayer) 的气象时间序列,长度从 15 个月到近 24 年不等,作为能量平衡模型的输入,以获得一致的表面融化速率和能量平衡结果。我们发现表面融化速率表现出很大的时间、空间和过程变化。沿海 DML 的间歇性夏季融化主要由短波辐射的吸收驱动,而东 AP 的非夏季融化事件发生在焚风事件期间,焚风事件迫使大量向下的显热湍流通量。我们使用原位表面融化速率数据集来评估区域大气气候模型 RACMO2 的融化速率,并验证 QuikSCAT 卫星的融化产品。