数据库传统上查询在封闭世界中运行,对超出数据库中存储的数据之外的问题的问题没有提供任何答案。使用SQL的混合查询通过将关系数据库与大型语言模型(LLMS)集成在一起以回答超越数据库问题,从而提供了替代方案。在本文中,我们介绍了第一个跨域基准,天鹅,其中包含120个超越数据库问题的问题。为了利用最新的语言模型来解决天鹅中的这些复杂问题,我们提出了两个解决方案:一个基于模式扩展,另一个基于用户定义的功能。我们还讨论优化机会和潜在的未来方向。我们的评估表明,使用GPT-4 Turbo几乎没有提示,可以实现高达40.0%的执行准确性,而数据事实可达到48.2%。这些结果突出了混合查询的潜力和挑战。我们认为,我们的工作将激发进一步的研究,以创建更有效,更准确的数据系统,这些数据系统无缝整合关系数据库和大型语言模型,以解决超越数据库问题。
这篇开放获取论文由医学院 EliScholar(耶鲁大学学术出版数字平台)免费提供给您。该论文已被 EliScholar(耶鲁大学学术出版数字平台)的授权管理员接受并收录到耶鲁医学论文数字图书馆中。如需更多信息,请联系 elischolar@yale.edu。
我们提出了医学信息平台(MIP),这是科学和医学界的在线集中平台。它介绍了位于医院中的偏心的患者数据,帮助临床医生,临床科学家和研究人员确定疾病独有的模式,并提供明确的诊断和个性化治疗方法。该平台使用户能够从预处理的神经生理和医学记录中访问统一的医学数据,以及研究同类数据集,而无需传输原始的临床数据。此功能有助于对医疗数据进行利用和分析,同时保留敏感患者信息的隐私和安全性。MIP将数据科学和机器学习与数据技术,尤其是数据集成,安全计算,分散的分布式查询执行以及低水平,有效的科学管道执行,从而利用了现代数据引擎的特征,例如矢量化,并行化,并行化和JIT汇编。MIP是计算机科学家,临床科学家和医学专业人员多年的多年努力的结果。迄今为止,它已在欧洲的40多家医院中部署和使用,另外12个装置正在进行中。
在关系数据上提供深度学习(DL)模型已成为各种商业和科学领域的关键要求,最近引发了人们日益增长的兴趣。在这篇有远见的论文中,我们开始对代表体系结构进行全面探索以满足要求。我们突出显示了三个关键范式:最新的以DL中心体系结构将DL计算卸载到专用的DL框架上。以UDF为中心的体系结构将一个或多个张量计算封装到关系数据库管理系统(RDBMS)中的用户定义功能(UDFS)中。潜在的以关系为中心的体系结构旨在通过关系运算符代表大规模的张量计算。虽然这些体系结构中的每一个都在特定的使用方案中表现出了希望,但我们确定了这些体系结构的无缝集成和这些体系结构之间的中间地面的紧迫要求。我们深入研究了阻碍整合并探索创新策略以关闭它们的差距。我们提出了一种建立新型RDBM的途径,以实现一类广泛的数据密集型DL推理应用程序。
摘要。NOSQL数据库和相关技术正在迅速发展,通常在多种情况(一致性,可用性,分区公差)中使用,这在数据库世界中引发了争议,因此本文旨在阐明确定数据库使用的特征。通过讨论挑战并研究深度的差异并试图回答与数据库未来使用有关的问题,我们开始讨论关系和非关系数据库,缺点和挑战,然后我们选择了两种模型,然后我们选择了一种在Query过程中在Query过程中研究数据库服务器服务器服务器的差异,该过程是一个重要的一部分数据。我们还讨论了用于多个考虑因素采用的两个模型的普及,并得出结论,尽管面临挑战,但非关系数据库往往很快成为首选。