摘要 —本文重点介绍相似性缓存系统,其中用户对不在缓存中的对象 𝑜 的请求可以通过存储的相似对象 𝑜 ′ 来(部分)满足,但代价是用户效用的损失。相似性缓存系统可有效地用于多个应用领域,如多媒体检索、推荐系统、基因组研究和机器学习训练/服务。然而,尽管它们具有相关性,但人们对此类系统的行为还远未得到很好的理解。在本文中,我们首次全面分析了离线、对抗和随机设置中的相似性缓存。我们表明相似性缓存带来了重大的新挑战,为此我们提出了第一个具有一些最优性保证的动态策略。我们在合成和真实请求跟踪下评估了我们方案的性能。
我们提出了一种基于神经网络的方法,该方法可计算一个稳定且通用的度量(LSiM)来比较来自各种数值模拟源的数据。我们专注于标量时间相关的二维数据,这些数据通常来自基于运动和传输的偏微分方程(PDE)。我们的方法采用了一种由度量的数学性质驱动的孪生网络架构。我们利用带有 PDE 求解器的可控数据生成设置,在受控环境中从参考模拟中创建越来越不同的输出。我们学习到的度量的一个核心组成部分是一个专门的损失函数,它将关于单个数据样本之间相关性的知识引入训练过程。为了证明所提出的方法优于现有的向量空间度量和其他基于图像的学习到的度量,我们在大量测试数据上评估了不同的方法。此外,我们分析了可调节训练数据难度的泛化优势,并通过对三个真实数据集的评估证明了 LSiM 的稳健性。
自然语言处理是AI的不断增长的子场,具有不同应用的多种多样。常见且看似直接的应用是文档相似性,通常会实现各种NLP算法。但是,加上其不同技术的多功能性,也有缺点。不同的算法倾向于集中在一个或多个相似性的因素上,这意味着它们可以在一种类型的相似性评估中表现出色,但会与另一种相似性评估。本文研究了三种NLP技术,重点是它们自动化相似性评估的能力。他们的重点是课程内容在课程资格或课程学分之间使用之间的相似性。在此时间点,此比较是手动进行的。确定哪些因素在学分课程中很重要,已经实施了三种算法并在各种课程比较测试中运行。所选的算法和因子是TF-IDF,用于加权项重叠,n-gram,用于上下文匹配,并使用关键字提取进行主题检测。在评估其整体效果时,使用关键字提取的NER似乎是最佳选择。直到显而易见的是,它更加一致,自信地给出错误的答案。它在具有一些相似之处的课程上给出了很高的相似性分数,例如来自同一所大学,但不够相似,无法彼此学分。使用n-grams来确定相似性是在相似和不同课程上最可靠的,并且被证明是可靠的选择。tf-idf的当前词汇表现不佳。总结基于上下文的N-gram的相似性在研究课程自动信用时被证明是一个可靠且有用的因素,但在实际使用之前需要进一步的工作。
gosemsim包装。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>2 buildgoMappap。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>3个簇。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>4个硬币。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 5 Genesim。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 5 Godata 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。4个硬币。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。5 Genesim。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 5 Godata 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。5 Genesim。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。5 Godata。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 2010级。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。7 Gosim。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。8。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>9个信息方法。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>9 load_orgdb。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>10 mclustersim。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。。。。。。。。。。。。10 mgenesim。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。11 mgosim。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。12 read.blast2go。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 read.gaf。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。14 TCSS_CUTOFF。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。14条款。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 wangmethod_internal。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16
声称生物特性和/或生物活性的差异对产品的预期治疗效果和/或安全属性具有重要意义和相关性,应基于合理的科学依据,例如基于科学文献或可用的体外数据/体内(非)临床数据。可以使用临床数据(如果有),但不需要生成临床数据。需要强调的是,评估两种活性物质之间的相似性并不意味着证明新产品比之前授权的产品更安全、更有效或在临床上更优越,如法规 (EC) No 141/2000 第 8(3)(c) 条所规定。
确定化学物质与毒性靶标相互作用的能力,例如不良结局途径中的蛋白质,是药物发现和风险评估的重要步骤。筛选化学毒性目标相互作用的计算方法可以作为传统体外 /体内方法的快速替代方法。在这项工作中,我们开发了一种基于化学相似的方案,该方案可以预测化学物质与64个已建立的毒性靶标相互作用的潜力。特别是,我们从公共数据源创建了一个化学基因组学数据库,以识别目标代表,即已知与所选靶标相互作用的化学物质。我们使用Chembl数据库的外部评估集在正确排名的已知相互作用化合物中评估了2D和3D相似性方法的性能。我们发现2D方法在目标预测中的表现优于3D方法。在这里,我们使用基于2D相似性的筛选方法开发了一种公开可用的毒性profiler网站(https://toxpro.bhsai.org/),该方法允许用户为一组查询化合物获得毒性目标配置文件。我们将探测器用于屏幕649已知的急性和剧毒化学物质,全球统一系统(GHS)得分小于2。在此组中,乙酰胆碱酯酶是毒性的最常见目标。开发的毒性特性工具提供了一种快速筛选化学毒性的机制的方法。
定义了两个经济体之间的经济相似性,即两个经济体未来之间的对应关系,其中所有生产和消费行为或特定子集都是相同的。相似的经济体中价格和通货膨胀可能不同,因此经济相似性是研究通货膨胀和表达货币中性(作为货币的一个方面)的理想工具。陈述并证明了从任意经济体到具有不同通货膨胀率的经济体的经济相似性公式。经济相似性用于制定和证明货币数量论的严格表达,而不同的经济相似性用于阐明如何通过提高利率来降低通货膨胀。确定并量化了因提高利率以控制通货膨胀而造成的经济活动扭曲。确定了一种管理通货膨胀的策略,该策略通过关注贷款偿还而不是利率来避免经济活动扭曲。通过经济相似性对货币中性方面更精确的理解,可以推断出存在一种“无痛”通胀管理策略,该策略既调整偿还率,又调整利率。尽管发现一种纯粹“技术”的通胀管理机制是意料之外的,但经济相似性提供的理论依据却很强。这种机制的实际意义是巨大的。
在这项研究中,我们利用LLM来增强语义分析并为文本开发相似性指标,以解决传统无监督的NLP指标(如Ruge和Bleu)的局限性。我们开发了一个框架,其中LLM(例如GPT-4)用于放射学报告的零摄影文本标识和标签生成,然后将标签用作文本相似性的测量值。通过在模拟数据上测试提出的框架,我们发现GPT-4生成的标签可以显着提高语义相似性评估,而得分比传统的NLP指标更与临床基础真理紧密相符。我们的工作证明了使用LLMS对高度专业域的半定量推理结果对文本数据进行语义分析的可能性。虽然实施了用于放射学报告相似性分析的框架,但它的概念也可以扩展到其他专业领域。
我们研究了计算概率分布之间统计相似性的问题。对于有限的样品空间上的分布P和Q,它们的统计相似性定义为S Stat(P,Q):= P X Min(p(x),q(x))。统计相似性是分布之间相似性的基本量度,具有几种自然解释,并捕获了预测和假设测试问题中的贝叶斯错误。最近的工作已经确定,有些令人惊讶的是,即使对于简单的产品分布,精确的计算统计相似性也是#p -hard。这激发了设计统计相似性的近似算法的问题。我们的主要贡献是用于估计两个产品分布之间统计相似性的完全多项式确定性近似方案(FPTA)。为了获得此结果,我们引入了背包问题的新变体,我们称之为“掩盖背包”问题,并设计了一个FPTA,以估算此问题的多维版本的解决方案数量。这种新的技术贡献可能具有独立的利益。此外,我们还建立了一个完全的硬度结果。我们表明,当p和q是估计统计相似性的NP -HARD是内度2的贝叶斯净分布时。