摘要本研究介绍了AGGA,该数据集由80个学术准则组成,用于在学术环境中使用生成AIS(GAIS)和大型语言模型(LLM),并从官方大学网站上仔细收集。数据集包含188,674个单词,并充当了通常应用于需求工程中的自然语言处理任务的宝贵资源,例如模型合成,抽象识别和文档结构评估。此外,可以进一步注释AGGA作为各种任务的基准,包括歧义检测,需求分类和标识等效要求。我们的方法论严格的方法确保了彻底的检查,其中一系列代表各种各样的全球机构的大学,包括六大洲的顶级大学。数据集捕获了包括人文,技术以及公共和私人机构在内的各个学术领域的观点,为盖斯和LLM在学术界的整合提供了广泛的见解。
摘要。车辆到全能(V2X)技术的最新进步使自动驾驶汽车能够共享感应信息以通过遮挡来查看,从而极大地提高了感知能力。但是,没有现实世界中的数据集来促进真正的V2X合作感知研究 - 现有数据集仅支持车辆到基础设施合作或车辆到车辆的合作。在本文中,我们提出了V2X-Real,这是一个大规模数据集,其中包括多种车辆和智能基础设施的混合物,以促进V2X合作感知的发展,并具有多模式感测数据。我们的V2X-Real是使用两个连接的自动化车辆和两个智能基础架构收集的,它们都配备了包括LIDAR传感器和多视图摄像头在内的多模态传感器。整个数据集包含33K激光镜框架和171K摄像机数据,在非常挑战的城市场景中,有10个类别的注释框架超过120万。根据协作模式和自我观点,我们为以车辆为中心,以基础设施为中心,车辆到车辆和基础设施到基础结构的合作社来得出四种类型的数据集。提供了SOTA合作感知方法的综合多级多级多代理基准。V2X-REAL数据集和代码库可在https://mobility-lab.seas.ucla.edu/ v2x-real上找到。
摘要 - 诸如Chatgpt之类的基础模型由于其对现实世界的普遍代表而在机器人任务中取得了长足的进步。在本文中,我们利用基本模型来解决Grasp检测,这是具有广泛工业应用机器人技术的持续挑战。尽管数据集很多,但与现实世界数字相比,它们的对象多样性仍然有限。幸运的是,基础模型具有广泛的现实知识存储库,包括我们在日常生活中遇到的对象。因此,对以前的GRASP数据集中有限表示的有希望的解决方案是利用这些基础模型中嵌入的通用知识。我们提出了Grasp-noth,这是一种从基础模型中合成的新的大规模掌握数据集来实施该解决方案。掌握在多样性和幅度上都擅长,具有文本描述和超过3M对象的1M样品,超过了先前的数据集。从经验上讲,我们表明,任何东西都成功地促进了对基于视觉的任务和现实世界机器人实验的零射击抓手的检测。我们的数据集和代码可在https://airvlab.github.io/grasp-anything/上找到。
或半个多世纪以上,田野凸轮在推进大气科学方面发挥了核心作用。尽管最近几十年目睹了在美国和国际实验的分类和归档现场数据的有组织的努力,这在很大程度上是通过国家大气研究中心(NCAR)的主持人(NCAR)的主持人,但从1950年代到1980年代的运动中的数据尚未系统地收集并在中央位置进行了存档。在这里,我们报告了采取措施纠正这种情况的努力,最初的重点是大气发声数据。此外,我们通过识别和找到过去现场活动的观察结果并将此信息报告到我们的项目网站上,向国际社会呼吁国际社会在这项努力中sist。
采样和表征生物多样性的新方法在评估整个地球的生活模式方面具有巨大的希望。用旋风采样器对机载孢子进行采样,以及其DNA的测序,被认为是一种有效且良好的校准工具,用于调查各种环境中的真菌多样性。在这里,我们介绍了来自全球孢子采样项目的数据,其中包括在全球47个室外地点两年内收集的2,768个样本。每个样品代表从24 m 3的空气中提取的真菌DNA。我们应用了保守的生物信息学管道,该管道过滤了序列,该序列没有显示出代表真菌物种的强烈证据。管道产生了27,954个物种级的操作分类单元(OTU)。每个OTU都伴随着概率的分类学分类,并通过与专家评估进行比较来验证。要检查数据的潜力进行生态分析,我们将物种分布的变化分为空间和季节性成分,显示了年平均温度对社区组成的强烈影响。
最近的研究已迈向公平的机器学习。但是,通常检查相对较少的数据集以评估这些公平意识的算法,甚至更少的教育领域,这可能会导致对特定类型的公平问题的关注狭窄。在本文中,我们描述了一种新型的数据集修改方法,该方法利用遗传算法将许多类型的不公平性诱导到数据集中。此外,我们的方法可以从头开始生成不公平的基准数据集(从而避免在可能利用边缘化的人口的情况下收集数据),或修改用作参考点的现有数据集。我们的方法可以平均在数据集和不公平定义的情况下将不公平性增加156.3%,同时保留在原始数据集中训练的模型(平均更改为0.3%)的AUC分数。我们研究了我们在具有不同特征的跨数据集中方法的概括,并评估了三种常见的不公平缓解算法。结果表明,我们的方法可以生成具有不同类型的不公平,大小数据集,不同类型的功能的数据集,并且会影响使用不同分类器训练的模型。使用此方法生成的数据集可用于基准测试和测试,以进行对算法不公平的测量和缓解的未来研究。
在当今的数字景观中,在最大化数据实用程序的同时需要保护隐私的需求推动了加密解决方案的发展。同态加密,这是一种在没有解密的情况下对加密数据进行计算的范式,在这项工作中脱颖而出。这项调查深入研究了同态加密的核心,探索其理论基础,算法优化和实际应用。各种方案的弹性,尤其是基于晶格密码学的方案的弹性,对对抗性威胁进行了检查。该调查强调了正在进行的优化同态加密,平衡加密鲁棒性与计算效率的努力。强调适应性,研究表明了同态加密如何在医疗保健和云计算等各个领域中找到效用。此外,它探讨了同构加密与人工智能等新兴技术的相交,并有望提供隐私的数据分析。展望未来,调查解决了预期量子计算后的量子后同构加密的挑战。同态加密是一种关键的力量,塑造了以隐私为中心的数字未来,以实现安全数据处理。
脑部计算机界面是一个重要而热门的研究主题,它彻底改变了人们与世界的互动,尤其是对于神经系统疾病的人。虽然已经在英语字母和单词的脑电图信号中进行了广泛的研究,但仍然存在一个主要限制:缺乏许多非英语语言(例如阿拉伯语)公开可用的脑电图数据集。尽管阿拉伯语是全球口语最多的语言之一,但据我们所知,到目前为止,目前尚无公开可用的脑电图信号。为了解决这一差距,我们介绍了Areeg_chars,这是一个新颖的EEG数据集,该数据集用于30名参与者(21名男性和9名女性)的阿拉伯语31个字符,使用Epoc X 14通道设备收集了这些记录,每次CHAR记录长10秒。记录信号的数量为930个脑电图记录。使EEG信号适合分析,每个记录分别分别为多个信号,分别为250ms。因此,本研究中总共收集了39857个脑电图信号的记录。此外,Areeg_chars将公开用于研究人员。我们确实希望该数据集能够填补对阿拉伯语脑电图的研究,从而使讲阿拉伯语的残疾人受益。
3D服装建模和数据集在娱乐,动画和数字时尚行业中起着至关重要的作用。现有工作通常缺乏详细的语义理解或使用合成数据集,缺乏现实主义和个性化。为了解决这个问题,我们首先介绍Close-D:一个新颖的大型数据集,其中包含3167扫描的3D服装分割,涵盖了18种不同的服装类别。此外,我们提出了封闭式网络,这是第一个基于学习的3D服装分割模型,用于从彩色点云中进行细粒度分割。封闭式网络使用局部点特征,身体贴相关以及基于服装和点特征的注意模块,从而提高了基准和先前工作的表现。提出的注意模块使我们的模型可以从数据中学习外观和几何学依赖性服装。我们通过成功分割了服装人员的公开可用数据集来确认方法的功效。我们还引入了Close-T,这是一种用于完善的3D交互工具
摘要当前的研究介绍了AdvansVM,这是一种改进的支持向量机,旨在使用PIMA印度糖尿病数据集来完善糖尿病预测。这项研究探讨了各种插补方法,以评估其对预测精度的影响,强调针对针对糖尿病预测的微调机器学习模型的特征选择的重要性。它还指出了数据平衡和复杂模型公式的重要性,以及需要更广泛的数据集推动该领域的前进进步的需求。挑战与数据集的特异性以及超出其范围之外的结果的扩展有关。具有自定义内核函数和量身定制的参数调整的AdvanSVM分类器解决了这些问题,同时还可以管理医疗数据中发现的固有不平衡。该研究针对PIMA数据集的独特挑战,例如缺失的信息和异常,以改善糖尿病的临床适用预测。对具有相关指标的模型的彻底评估证实了其提供精确糖尿病预测的潜力。