Haitham Afifi 1,(成员,IEEE),Sabrina Pochaba 2,Andreas Boltres 3,Dominic Laniewski 4,(研究生成员,IEEE),Janek Haberer 5,Leonard Paeleke 6.7,6.7 Samikwa 12和Michael Seufert 13,(IEEE高级会员)1埃森哲,61476 Kronberg im Taunus,德国2萨尔茨堡研究学会M.B.H.奥斯纳布鲁克大学,49076德国奥斯纳布鲁克5号分布式系统集团,基尔大学,24118德国基尔6号,德国6数字工程学院,波茨坦大学,14482德国波茨坦,德国7数字健康与机器学习,Hasso Plattner Institute,HASSO PLATTNER INSTICE,HASSO POTSDAM,14482 POTSDAM,POTSDAMS STRIC STRIC STRIC STRIC STRIC CENTRIED中心小组,应用研究所,Karlsruhe Technik,76133,Karlsruhe,Karlsruhe,9 97074Würzburg,Würzburg,97074Würzburg,Dermany of Commention Sciential of Compucation Conituction in Compucation parter in Commutional of Cormutional ofernation of Compuline Pererny of Compuline Parerny of Commention paderborns,330983098309330093009093009.伯尔尼,瑞士3012伯尔尼13号网络嵌入式系统和通信系统主席,奥格斯堡大学,德国奥格斯堡86159
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2024年8月10日。 https://doi.org/10.1101/2022.11.30.518537 doi:Biorxiv Preprint
P. Fretwell 1,* , H. D. Pritchard 1,* , D. G. Vaughan 1 , J. L. Bamber 2 , NE Barrand 1 , R. Bell 3 , C. Bianchi 4 , R. G. Bingham 5 , D. D. Blankenship 6 , G. Casassa 7 ,G.卡塔尼亚 6 , https://doi.org/10.1103/PhysRevLett.199.1121,Google Scholar Crossref,CAS 11。D. Callens 8,H. Conway 9,A. J. Cook 10,H. F. J. Corr 1,D. Damascus 11,V. Damm 11,F Ferraccioli 1、R. Forsberg 12、S. Fujita 13、P. Gogineni 14、J. Chem。A. Griggs 2 , R. C. A. Hindmarsh 1 , P. Holmlund 15 , J. W. Holt 6 , R. W. Jacobel 16 , A. Jenkins 1 , W. Jokat 17 , T. Jordan 1 , E. C. King 1 , J. Kohler 18 , W克拉比尔 19 岁,理学硕士Riger-Kusk 20、K.A. Langley 21、G. Leitchenkov 22、C. Leuschen 14、B.P. Luyendyk 23、K. Matsuoka 24、Y. Nogi 25、O.A. Nost 24 , S. V. Popov 26 , E. Rignot 27 , D. M. Rippin 28 , A. Riviera 7 , J. Roberts 29 , N. Ross 30 , M. J. Siegert 2 , A. M. Smith 1 , D. Steinhage Studinger 31 , B.周日 32 、BK Tinto 3 、BC 韦尔奇 17 、DA[div] Young 6 、C.Xiangbin 32 和 A.Zirizzotti 33
过去十年在利用机器学习的化学发现中取得的非凡成就突出了可访问知识和结构化数据的力量。1 - 3但是,化学知识的一部分,尤其是实验知识的一部分,以非结构化的形式散布在整个科学文学中。4研究人员在有效地利用现有知识来设计实验方面面临着挑战,以及在ELD中理解以前的整个研究。因此,开发从文献中提取信息并将其转换为结构化数据的方法论将在推进分子和材料的机器学习方面起着基本作用。自然语言处理(NLP)是从科学文学中提取信息的强大工具。召开NLP方法已用于材料和化学
摘要:最近的进步突出了高质量数据在开发准确的AI模型中的关键作用,尤其是在称为实体识别(TI-NER)的威胁智能中。这项技术自动化了广泛网络报告中信息的检测和分类。但是,缺乏可扩展的注释安全数据集阻碍了TI-NER系统的开发。为了克服这一点,研究人员经常使用数据增强技术,例如合并多个带注释的NER数据集以提高品种和可扩展性。整合这些数据集面临着挑战,例如保持一致的实体注释和实体类别以及对标准化标记方案的影响。手动合并数据集在大规模上很耗时且不切实际。我们的论文介绍了Ti-Nermerger,这是一个半自动化的框架,将各种Ti-NER数据集集成到可扩展的,合规的数据集中,与Stix-2.1等网络安全标准对齐。,我们通过使用DNRTI和APTNER数据集将框架的效率和效率进行了比较,从而验证了该框架的效率和有效性,从而产生了增强APTNER(2aptner)。结果表明,手动劳动减少了94%以上,在短短几分钟内节省了几个月的工作。此外,我们应用了高级ML算法来验证集成NER数据集的有效性。我们还提供公开访问的数据集和资源,支持威胁情报和AI模型开发的进一步研究。
随着移动设备成为人类存在和活动的代理,移动运营商收集的数据集(即呼叫详细记录(CDRS))被公认为是研究人类行为的常见工具,在多种研究中和行业中,社会学[1],例如,流行病学[2],运输[3],交通[3],[4](CF>)图1a)。CDR描述了与操作员网络交互的每个移动设备生成的时期和地理参考事件类型(例如,呼叫,SMS,数据)(参见表I)。 它们包括城市,地区或乡村地区,通常涵盖长期(月或数年);当今,没有其他技术提供同等的人均精确范围。 然而,现实世界中CDR对研究的剥削面临许多局限性(参见 §ii)。 首先,可访问性:CDRS数据集未公开可用,施加了严格的移动运营商协议。 第二,可用性:CDR通常以汇总形式(即分组的迁移率流和粗时空信息)提供,限制了相关分析的精确性。 第三,隐私:即使是匿名化的CDR,CDRS描述了用户习惯的敏感信息,这使他们的共享性硬化[5]。 第四,灵活性:限制访问CDRS的限制了高级研究,需要在人口规模,持续时间或地理覆盖范围内进行数据丰富。 本文介绍了实施CDR的自动生成,以解决上述挑战。表I)。它们包括城市,地区或乡村地区,通常涵盖长期(月或数年);当今,没有其他技术提供同等的人均精确范围。然而,现实世界中CDR对研究的剥削面临许多局限性(参见§ii)。首先,可访问性:CDRS数据集未公开可用,施加了严格的移动运营商协议。第二,可用性:CDR通常以汇总形式(即分组的迁移率流和粗时空信息)提供,限制了相关分析的精确性。第三,隐私:即使是匿名化的CDR,CDRS描述了用户习惯的敏感信息,这使他们的共享性硬化[5]。第四,灵活性:限制访问CDRS的限制了高级研究,需要在人口规模,持续时间或地理覆盖范围内进行数据丰富。本文介绍了实施CDR的自动生成,以解决上述挑战。尤其是(1)我们通过建立这种生成的痕迹的范围并描述它如何为研究进展提供新的途径,详细介绍了这种解决方案的动机,(2)我们通过提出相关要求和挑战来分享对现实CDR生成的可行性研究。
摘要 迁移学习和元学习已有效提高多个领域的性能。它也已成功应用于缺乏数据的 EEG 解码。然而,由于实验设置的差异,例如电极数量、电极位置和任务定义不同,跨数据集的 EEG 数据迁移学习面临着独特的挑战。为了解决跨异构电极配置 EEG 数据集进行跨数据集训练的问题,我们引入了一种新方法 CoordinateAttention,它使用电极传感器的 3-D 坐标来学习电极位置之间的空间关系,从而动态生成用于特征提取的空间卷积核。我们表明,我们的模型在跨设置的 EEG 解码中具有良好的性能,并且对数据损坏具有鲁棒性。CoordinateAttention 是一种使用几何位置信息进行特征提取和数据融合的通用方法。
1. BIDMC 充血性心力衰竭数据库 1986 87 4 3 2 2.90 2.10 2.27 2.23 ECG;充血性心力衰竭;心脏病;心脏病学 2. CEBS 数据库 2013 6 0 1 4 2.00 1.69 1.78 1.67 ECG;心震图;心脏病学 3. CHB-MIT 头皮脑电图数据库 2009 114 26 24 30 16.29 2.06 2.11 2.19 EEG;儿科脑电图;癫痫;儿科;神经病学 4. 充血性心力衰竭 RR 间隔数据库 1995 184 2 7 7 8.76 5.24 5.45 5.61 ECG;充血性心力衰竭;心脏病;心脏病学;RR 间隔 5. CAST RR 间隔子研究数据库 2000 54 0 7 7 3.38 1.85 2.25 2.37 ECG;心律失常;心脏病学;RR 间隔 6. ECG-ID 数据库 2005 1 0 1 0 0.09 0.00 0.00 0.00 ECG;生物识别
人工智能 (AI) 在行为健康领域的应用引起了人们对使用机器学习 (ML) 技术识别人们个人数据模式的兴趣,目的是检测甚至预测抑郁症、躁郁症和精神分裂症等疾病。本文通过对三个自然语言处理 (NLP) 训练数据集的情境分析,研究了人工智能介导的行为健康背后的数据科学实践和设计叙述。通过将数据集视为与特定社会世界、话语和基础设施安排密不可分的社会技术系统,我们发现数据集构建和基准测试的技术项目(行为健康领域人工智能研究的当前重点)与行为健康的社会复杂性之间存在一些不一致。我们的研究通过阐明无序数据集的敏感概念,为日益增长的人工智能系统关键 CSCW 文献做出了贡献,该概念旨在有效地扰乱行为健康领域中人工智能/机器学习应用的主导逻辑,并支持研究人员和设计师反思他们在这个新兴且敏感的设计领域中的角色和责任。