- 在最坏的情况下,在理想晶格中找到近似最短的向量。- 下一代公开加密的新NIST标准的基础。- 替代结构:近似GCD,NTRU,O(1)-Lank模块LWE
抽象的机上计算机学习(ML)推理可以在无需向远程服务器揭示的用户设备上使用私人用户数据。但是,对于依靠嵌入太大而无法存储在设备上的许多应用程序的应用程序,纯粹的私人ML推理解决方案是不切实际的。特别是,建议模型通常在1-10 GB的数据下使用多个嵌入式表,这使得它们不切实际地存储在设备上。为了超越这个障碍,我们建议使用私人信息检索(PIR)有效,私人地从服务器中嵌入嵌入,而无需共享任何私人信息。由于现成的PIR算法通常过于计算,因此很密集,无法直接用于潜伏敏感的推理任务,我们1)提出了基于GPU的新型PIR加速度,以及2)与下游ML的pir共同设计PIR,以获得进一步的加速。我们的GPU加速策略将系统吞吐量提高了20倍以上,超过了CPU PIR实现,而我们的PIR-ML共同设计在固定模型质量下提供了超过5倍的额外吞吐量改进。,对于各种设备上的ML插图,例如建议和语言建模,我们的单个V100 GPU上的系统每秒可提供高达100,000的查询 - 基于CPU的基线,A> 100×吞吐量改进 - 在基于CPU的基线上 - 维护模型准确性。
大语言模型(LLM)的出现导致信息检索(IR)技术的显着进步,从而发展了方法,例如检索授权生成(RAG)和产生增强的检索(GAR)[4]。这些方法利用了先进的生成能力和对LLM的深刻语义理解来提高信息系统的精确性和效果。检索增强发电(RAG)旨在提高LLMS产生的响应的可靠性[5]。通过在推理过程中动态检索和集成外部信息,RAG试图将模型的响应锚定在验证内容中。此方法解决了“ hal-lucined”信息的问题,即LLMS生成的综合但实际上不正确的内容。抹布的成功取决于模型有效地使用检索到的信息的能力,该信息依赖于外部来源的质量和完整性。相反,生成增强的检索(GAR)试图通过利用LLM的生成能力来改善搜索结果。gar采用这些模型来扩展和重新搜索查询或增强文档代表[2] [6],从而更好地将用户查询与文档语料库保持一致。此方法不仅增加了搜索结果的相关性,而且还扩大了可响应复杂查询的内容范围。粗糙集已成功应用于Web挖掘(例如Web用法挖掘和网页分类)[1] [3]。我们期望粗糙的理论可以
摘要:本文通过分析生成人工智能 (GAI) 提供的显著优势,探讨了生成人工智能 (GAI) 在增强图书馆信息检索和知识发现方面的作用。其目的是扩大对 GAI 潜力的理解,以及它如何在快速发展的数字环境中重塑学术图书馆的信息检索、可访问性和知识发现。该研究采用了混合方法;系统评价和纵向方法作为其方法论。它提出了 GAI 在增强学术图书馆信息检索和知识发现方面的作用,包括收藏开发和管理、编目和分类、索引、图书馆数据分析和独特的搜索引擎。本文还指出了一些限制 GAI 在学术图书馆中使用的挑战,例如 GAI 可能不准确、员工培训和发展、严格的教育结构以及人际关系和情感联系。作为结论和建议,研究人员建议学术图书馆应加大对员工培训和再培训的投资,因为员工的专业技术发展将确保有效管理和使用人工智能技术。关键词:生成人工智能、信息检索、知识发现和学术图书馆。
简介 在不久的将来,我们不会输入命令或说出命令,而是会思考它们。目前,脑机接口已投入使用,并且有可能从使用功能性磁共振成像 (fMRI) 获得的大脑活动记录中生成正在默读的内容的记录 (Tang 等人2023)。最近,已证明使用脑电图 (EEG) 成像进行神经记忆解码是可能的 (Bruns、Haidar 和 Rubino 2023)。神经记忆解码是从大脑数据重建心理回忆的概念。这一发现很重要,因为与 fMRI 不同,EEG 设备价格低廉且舒适。消费者可以购买 EEG 设备并在一天中的大部分时间佩戴它们。使用消费级 EEG 设备进行神经记忆解码表明了一系列令人兴奋的应用。神经信息检索就是这样一种应用。随着互联网上可用的信息越来越多,找到以前遇到过的文档成为一个难题。创建和存储书签不是一个好的解决方案,因为用户创建的标签或关键字是主观的并且很难创建。重新搜索文档的替代方案可能很困难且耗时。使用神经信息检索,只需思考一下就可以检索曾经看到的信息。在此应用程序中(见图1),用户在找到有用的文档或网站后,会在记录简短的 EEG 时对其进行短暂的思考。稍后,为了检索文档,用户在脑电图再次显示时简要回忆文档的内容
摘要 — 本研究探讨了将检索增强生成 (RAG) 集成到已使用混合专家 (MoE) 的 Mistral 8x7B 大型语言模型 (LLM) 中,以解决其在复杂信息检索和推理任务中现有的局限性。通过利用 Google BIG-Bench 数据集,我们进行了广泛的定量和定性分析,以评估增强模型的性能。结果显示准确率、精确率、召回率和 F1 分数均有显著提高,凸显了增强模型在生成语境丰富、准确且细致入微的响应方面的卓越能力。这种集成展示了一种克服传统 LLM 固有局限性的有希望的方法,标志着人工智能研究的关键进展。我们的研究结果有助于持续开发更具适应性、更高效、更智能的人工智能系统,为人工智能在各个领域的应用开辟新的途径。该研究承认与数据集范围和计算需求相关的限制,并为未来的研究提出了进一步完善和扩展模型适用性的方向。
这两个差异仅影响我们密码文本的最低顺序位。因此,我们可以通过简单地设置我们的参数来处理这两个问题,即使误差分布稍大,可以使解密能力高。例如,如果我们设置2 B + 2 更广泛地,我们可以适当地设置参数,以允许在这些LWE密文上执行任何(多项式)的同构添加。 这种线性同态对建立对加密数据执行一些(受限制的)计算的密码系统非常有用,例如,汇总了加密的投票。 在本讲座的其余部分中,我们将看到如何使用它来构建私人信息检索。更广泛地,我们可以适当地设置参数,以允许在这些LWE密文上执行任何(多项式)的同构添加。这种线性同态对建立对加密数据执行一些(受限制的)计算的密码系统非常有用,例如,汇总了加密的投票。在本讲座的其余部分中,我们将看到如何使用它来构建私人信息检索。
大量的时间临床医生花费在患者笔记中进行筛选,并记录了电子健康记录(EHRS)是临床医生倦怠的主要原因。通过在文档过程中积极,动态地检索相关注释,我们可以减少找到相关患者病史所需的努力。在这项工作中,我们将EHR审核日志的使用概念化为机器学习作为在特定时间点特定临床背景下的注释相关性的来源。我们的评估重点是急诊科的动态检索,这是一个具有独特信息检索和笔记写作模式的高敏度设置。我们表明,我们的方法可以达到0.963的AUC,以预测在单个笔记写作会话中将阅读哪些注释。我们还与几位临床医生进行了用户研究,发现我们的框架可以帮助临床医生更有效地检索相关信息。证明我们的框架和方法可以在这种苛刻的环境中表现良好,这是一个有希望的概念证明,它们将转化为其他临床环境和数据方式(例如,实验室,药物,成像)。
摘要 在当今高度数字化的社会中,安全信息检索是一项基本任务。在某些应用中,可能需要强制执行用户查询的隐私和数据库内容的安全性。对于这些设置,可以采用对称私有信息检索 (SPIR),但众所周知,其实现要求很高,需要私钥交换网络作为基础层。在这里,我们首次报告了由量子安全密钥交换网络连接的可证明安全的 SPIR 的实现。SPIR 方案着眼于生物特征安全性,可从包含 800 个条目的数据库中安全检索 582 字节的指纹文件。我们的实验结果清楚地证明了 SPIR 与量子安全通信的可行性,从而为未来量子互联网上的安全分布式数据存储和云计算开辟了新的可能性。