摘要。生成模型允许创建高度现实的人造样品,从而在医学成像中开放了有希望的应用。在这项工作中,我们提出了一种基于多阶段编码器的方法,以将生成对抗网络(GAN)的发电机倒入高分子胸部X光片。这可以直接访问其隐式形成的潜在空间,使生成模型更容易被研究人员访问,并使其能够将生成技术应用于实际患者的图像。我们研究了此嵌入的各种应用程序,包括图像压缩,编码数据集中的分离,引导图像ma-nipulation以及创建程式化样品的创建。我们发现,这种类型的GAN反转是胸部X光片建模领域的一个有希望的研究方向,并为将现实的X射线样品合成与放射学图像分析结合起来开辟了新的方法。
图2。使用BERT衍生特征与(a)预测和(b)材料属性分类的模型性能比较模型性能。SMA,Ti合金和HEA的10倍MAE图与广泛的平行测试中所选特征数量(1-8)的函数相同。蓝线使用传统的经验特征(例如电负性,原子半径)表示模型性能,而红线表示BERT衍生的材料特征。检查的特性包括相变温度(MP,AP),转化焓(ΔH),屈服强度(σs),终极拉伸强度(σb),Vickers硬度(VH)和伸长率(EL)。Classification tasks include binary classification of Solid Solution (SS) vs. Non-Solid Solution (NSS), ternary classification of phase forms (Face-Centered Cubic (FCC), Body-Centered Cubic (BCC), and FCC-BCC mixed), and quaternary classification of SMA phases (B19'-B2, B19'-B19-B2, B19'-R-B2, B19-B2, and R-B2)。bert衍生的特征始终在几乎所有属性和特征数量上产生较低的预测误差,从而突出了它们捕获合金组成和属性之间内在关系的卓越能力。阴影区域代表跨平行测试的标准偏差。
数据敏感度量自然出现在机器学习中,并且在一些著名方法中起着核心作用,例如 k-NN 图方法、流形学习、水平集方法、单链接聚类和基于欧氏 MST 的聚类(详情见第 5 节和附录 A)。构建合适的数据敏感度量是一个活跃的研究领域。我们考虑一个简单的数据敏感度量,它有一个底层流形结构,称为最近邻度量。该度量最早在 [CFM + 15] 中引入。它及其近似变体在过去已被多位研究人员研究过 [HDHI16、CFM + 15、SO05、BRS11、VB03]。在本文中,我们展示了如何精确计算任意维度的最近邻度量,这解决了任何基于流形的度量最重要和最具挑战性的问题之一。
我们的模型性能接近为相同 EF 分类问题开发的当前 SOTA(最先进)分类器,这突显了其质量。例如,我们的准确率高于最新模型,同时与最佳 SOTA 准确率相差 5 分以内。我们的 AUC 也高于最新模型,与最佳 SOTA AUC 相差 6 分以内。a R3D Transformer,ResNet18 主干。b 未公开的算法。c 具有空洞卷积的 3D 卷积神经网络。d GSM,Inception 主干,32 帧超声心动图。e 移动 U-Net。
对有针对性表示的有向图建模是在图形结构数据上执行机器学习的基本要求。几何嵌入模型(例如双曲线,锥体和盒子嵌入)在此任务中出色,表现出有针对性图的有用的电感偏差。然而,对包含周期和某些传递性元素的定向图进行建模,这是现实世界中常见的两种属性,这是具有挑战性的。框嵌入可以被认为是将图表示作为某些学到的超图上的交点,具有自然的感应性偏置,以建模传递性,但是(正如我们证明的)无法对周期进行建模。为此,我们提出了二进制代码框嵌入,其中博学的二进制代码选择了一个相交的图表。我们探索了几种变体,包括全局二元代码(相当于交叉点的联合)和每个vertex二进制代码(允许更大的灵活性)以及正则化方法。理论和经验结果表明,所提出的模型不仅保留了有用的传递性电感偏见,而且还具有足够的代表能力来模拟任意图,包括带有周期的图形。
摘要 - 平词检测通常依赖于词汇相似性度量,这些度量无法识别语义相似但词汇不同的释义。为了解决这个问题,我们提出了一种混合方法,将词汇指纹(通过滚动哈希和奖励)与来自基于变压器的模型得出的语义嵌入在一起。我们计算词汇和语义相似性得分,然后使用分类模型组合它们。在这项工作中,我们还比较了多个分类算法 - 逻辑回归,随机森林和XGBoost,以选择最终系统的表现最佳分类器。此外,我们分析了每种算法组件的复杂性,包括滚动哈希,奖励和语义嵌入生成。在Quora问题对的子集上进行的实验数据集表明,我们的混合方法超过了单方法基准。交互式的精简应用显示了实时参数调整,并突出了系统的鲁棒性。这项工作说明了将表面水平的词汇模式和深层语义关系团结起来,为窃的检测提供了一种更全面,更可靠的方法。索引术语 - 平式检测,词汇指纹识别,销售嵌入,变压器模型,混合方法,综合性分析。
本文介绍了我们为Semeval-2024任务8开发的系统,“多基因,多域和多语言的黑盒机器生成的文本检测”机器生成的文本是主要的结合文本之一,这是由于使用大型文本(LLM)在虚假的文本中使用大型语言模型(llm),在伪造的文本中,播放,或者在考试中作弊,或偶尔抄写。已经开发了许多系统来检测机器生成的文本。尽管如此,这些系统中的大多数都依赖于文本生成模型。在现实世界中,这种限制是不切实际的,因为通常无法知道用户使用哪种特定模型用于文本生成。在这项工作中,我们提出了一个基于对比度学习的单个模型,该模型使用了基线参数的40%(149m vs. 355m),但在测试数据集(137名参与者中的21位)上显示了可比的性能。我们的主要发现是,即使没有多个模型的集合,单个基本模型也可以在数据增强和对比度学习的帮助下具有可比性的性能。1
摘要 — 及时识别对域生成算法 (DGA) 域的 DNS 查询在减轻恶意软件传播及其潜在影响方面起着至关重要的作用,尤其是在阻止协调的僵尸网络活动方面。我们推出了 Dom2Vec,这是一种创新方法,通过利用仅从 DNS 查询中观察到的域名中派生的词典特征来快速检测 DGA 生成的域。Dom2Vec 利用词嵌入将从域名中提取的标记映射到高度富有表现力的表示中。然后将这些表示与基于声誉的域名评分系统相结合,该系统利用 n-gram 与白名单域列表相关的共现频率。域嵌入、声誉分数和从域名派生的其他有意义的词典特征的融合为 AI/ML 驱动的 DGA 检测提供了强大的域名表示。通过对包含 25 个不同 DGA 域系列的数据集进行实验评估,我们证明 Dom2Vec 明显优于当前最先进的 DGA 检测和分析方法,将我们之前基于信誉评分的检测系统提高了至少 30%,误报率低于 1%。索引术语 —DGA 检测、Word2Vec、TF-IDF、n-gram、词典分析、DNS、机器学习。
摘要。图论分析已成为建模大脑功能和解剖连接的标准工具。随着连接组学的出现,主要感兴趣的图或网络是结构连接组(来自 DTI 纤维束成像)和功能连接组(来自静息态 fMRI)。然而,大多数已发表的连接组研究都集中在结构或功能连接组上,但当它们之间的互补信息在同一数据集中可用时,可以联合利用它们来提高我们对大脑的理解。为此,我们提出了一种功能约束的结构图变分自动编码器 (FCS-GVAE),它能够以无监督的方式整合来自功能和结构连接组的信息。这导致了联合低维嵌入,从而建立了一个统一的空间坐标系,用于跨不同主体进行比较。我们使用公开的 OASIS-3 阿尔茨海默病 (AD) 数据集评估了我们的方法,并表明变分公式对于最佳地编码功能性大脑动态是必不可少的。此外,与不使用互补连接组信息的方法相比,所提出的联合嵌入方法可以更准确地区分不同的患者亚群。
摘要 知识密集型任务对机器学习 (ML) 技术提出了重大挑战。常用的方法,例如大型语言模型 (LLM),在应用于此类任务时往往会表现出局限性。尽管如此,人们已经做出了显著的努力来缓解这些挑战,重点是通过知识图谱 (KG) 来增强 LLM。虽然 KG 在表示知识方面具有许多优势,但它们的开发成本可能会阻碍广泛的研究和应用。为了解决这一限制,我们引入了一个框架,用于使用完善的通用 KG 来丰富小规模领域特定知识图谱的嵌入。采用我们的方法,当链接到大量通用 KG 时,适度的领域特定 KG 可以从下游任务的性能提升中受益。实验评估表明性能显着增强,Hits @ 10 指标最高可提高 44%。这个相对未被探索的研究方向可以催化知识图谱更频繁地融入知识密集型任务中,从而产生更稳健、更可靠的机器学习实现,这比普遍存在的 LLM 解决方案更少产生幻觉。