摘要 - Text到SQL系统通过将自然语言查询转换为结构化查询语言(SQL),从而促进与数据库的平稳互动,从而弥合非技术用户与复杂数据库管理系统之间的差距。本调查提供了对AI驱动的文本到SQL系统演变的全面概述,突出了其基础组件,大语言模型(LLM)体系结构的进步以及蜘蛛,WikisQL和COSQL等数据集的关键作用。我们研究了医疗保健,教育和金融等领域中文本到SQL的应用,并强调了它们改善数据可访问性的变革潜力。此外,我们还分析了持续的挑战,包括域的概括,查询优化,对多转交谈的支持以及针对NOSQL数据库量身定制的数据集和动态现实世界情景的有限可用数据集。为了应对这些挑战,我们概述了未来的研究方向,例如扩展文本到SQL功能以支持NOSQL数据库,设计用于动态多转变交互的数据集,并为现实世界中的可伸缩性和鲁棒性优化系统。通过调查当前的进步并确定关键差距,本文旨在指导基于LLM的文本到SQL系统中的下一代研究和应用。索引术语 - LLM,文本到SQL,自然语言处理,人工智能,AI Gen,基准测试,数据集,模式链接,SQL生成。
记忆体育馆展示了一套由2D部分可观察到的环境,即迫击炮混乱,神秘路径和灼热的聚光灯,旨在基于决策代理中的记忆能力。这些环境最初具有有限的任务,将其扩展为创新的,无尽的格式,反映了诸如“我打包我的书包”之类的累积内存游戏的不断挑战。任务设计中的这种进展将重点从仅评估样本效率转变为探测动态,延长场景中的记忆效果水平。为了解决可用的基于内存的深钢筋学习基线中的差距,我们在开源清洁库中介绍了一个实现,该库将变形金刚-XL(TRXL)与近端的pol-Pol-Pol-Cy-Cy-Cy-Cy-Cy-Cy-Cy-Cy-Cy-Cy-Cy-Cyizatization中进行了实现。这种方法采用滑动窗口技术利用TRXL作为情节内存的一种形式。我们在封闭式复发单元(GRU)和TRXL之间的比较研究揭示了我们有限和无尽任务的各种表现。trxl在有限的环境上表现出优于GRU的效果,但仅在利用辅助损失来重建观测值时。值得注意的是,Gru在所有无尽的任务中都表现出色,始终优于显着的边距TRXL。网站和源代码:https://marcometer.github.io/jmlr_2024.github.io/关键字:深增强学习,actor-Critic-Critic,记忆,内存,变形金刚,重复
社区监测计划的水文气象数据定量验证,J.Hydrol.,538,713–725,doi:10.1016/j.jhydrol.2016.04.062,2016 年。Weeks W.、Barthelmess A.、Rigby E.、Witheridge G. 和 Adamson R. 水力结构的堵塞。
摘要 - 截止性的进步使产生的音乐更接近人类创造的作品,但是评估这些模型仍然具有挑战性。虽然人类的偏好是评估质量,将这些主观判断转化为客观指标的黄金规模,尤其是对于文本审计和音乐质量,但事实证明很困难。在这项工作中,我们使用12种最先进的模型生成了6K歌曲,并对15K成对音频比较与2.5k人类参与者进行了调查,以评估人类偏好与广泛使用的指标之间的相关性。据我们所知,这项工作是第一个基于人类偏好对当前最新音乐生成模型和指标进行排名的工作。为了进一步的主观度量评估领域,我们提供了对生成的音乐和人类评估数据集的开放访问。索引术语 - 音乐生成,评估指标,音频数据集,人类评估调查
风险:投资该策略所涉及的风险可能包括:(1) 管理和运营风险:GMO 的投资技术无法产生预期结果的风险,包括年化收益和年化波动率。(2) 市场风险 - 股票:股票市场价格可能因影响发行人、其行业或经济和股票市场的因素而下跌。股票市场价格下跌通常可能会降低基金股份的净资产价值。(3) 非美国投资风险:许多非美国证券(特别是与新兴国家有经济联系的公司)的市场价格波动幅度大于美国证券。许多非美国市场(特别是新兴市场)的稳定性较差、规模较小、流动性较差、监管较少,并且这些市场的交易成本通常高于美国市场。有关这些风险和其他风险的更完整讨论,请参阅基金的发行文件。这不是投资该策略所涉及的风险的完整列表。请联系 GMO 了解更多信息。业绩回报:超过一年的期间的回报按年计算。要获取最近一个月末的业绩信息,请访问 www.gmo.com。引用的业绩数据代表过去业绩,并不预测未来业绩。净回报是在扣除模型咨询费和激励费(如适用)后得出的。这些回报包括交易成本、佣金和外国收入和资本收益的预扣税,并包括股息和其他收入的再投资(如适用)。综合账户支付的费用可能高于或低于使用的模型费用。GMO LLC 声称遵守全球投资业绩标准 (GIPS®)。点击策略页面文档部分中的 GIPS® 综合报告链接,即可在 GMO.com 上获取全球投资业绩标准 (GIPS®) 综合报告。GIPS® 是 CFA Institute 拥有的注册商标。CFA Institute 不认可或推广该组织,也不保证此处包含的内容的准确性或质量。实际费用在 GMO 的 ADV 表格第 2 部分中披露,也可在每种策略的综合报告中查阅。2012 年 1 月 1 日之前,综合账户是更广泛的实际回报策略的主要组成部分。从 2012 年 1 月 1 日开始,综合账户一直作为独立投资进行管理。回报包括 2024 年 12 月 16 日收到的一笔可观的一次性诉讼和解金。根据代表性账户,这一事件为 2024 年第四季度贡献了 2.29%,为 2024 年年度业绩贡献了 2.45%。包括此日期在内的其他时期的表现也受到了积极影响,有时甚至产生了重大影响。如果没有这种恢复,无论是绝对值还是相对于基准而言,其表现都会较低。如有需要,可提供更多信息。投资组合并非根据基准进行管理。对指数的引用仅供参考。
我们旨在评估大型语言模型(LLMS)进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,进而有效地和选择性地利用LLMS的药物。为了解决这些限制,我们提出了一个广义接口(e Mboded a gent i nterface),该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言,我们的基准对LLMS在不同子任务中的性能进行了全面评估,从而指出了LLM驱动的体现体现的AI系统的优势和劣势,并提供了对LLM在体现决策中的有效和选择性使用的见解。
参数良好的转移学习(PETL)方法在将预训练的模型适应各种下游任务时显示出希望,而仅训练了少数几个参数。在计算机视觉(CV)域中,已经提出了许多PETL算法,但它们的直接就业或比较仍然不便。为了应对这一挑战,我们通过从图像识别,视频操作识别和密集的预测任务中选择30种不同,挑战性和综合数据集来为CV域构建一个统一的视觉PETL基准(V-PETL基准)。在这些数据集上,我们系统地评估了25种主要的PETL算法,并开源一个模块化和可扩展的代码库,以公平地评估这些算法。V-PETL台式在NVIDIA A800 GPU上运行,大约需要310 GPU天。我们释放所有基准,使其对研究人员更加有效和友好。此外,V-PETL台将不断更新新的PETL算法和CV任务。
人类活动识别(HAR)在使用配备传感器的设备和大型数据集的日益增长的情况下变得非常重要。本文使用HAR的五个关键基准数据集(UCI-HAR,UCI-HAR,PAMAP2,WISDM,WISDM和Berkeley Mhad)评估了三类模型的性能:经典的机器学习,深度学习体系结构和受限制的Boltzmann机器(RBMS)。我们使用诸如准确性,精度,回忆和F1评分等群集以进行全面比较,评估了各种模型,包括决策树,随机森林,卷积神经网络(CNN)和深信仰网络(DBN)。结果表明,CNN模型在所有数据集中都提供了卓越的表现,尤其是在伯克利MHAD上。像随机森林这样的经典模型在较小的数据集上做得很好,但是面对具有较大,更复杂数据的Challenges。基于RBM的模型还显示出显着的潜力,尤其是对于特征学习。本文提供了详细的比较,以帮助研究人员选择最合适的HAR任务模型。
(a)Spearman在以下比较的层相关性最佳PLM配置相对于每种TL技术(X轴)使用的层,下游的头部和汇总方法(X轴),请进行:(i)AAV采样,(ii)AAV-ONE vs. REST vs. REST,(iii)gb1-three,(iii)gb1-three vs.s vs.s Rest,(iiv)和(IV)vs. vs.-iv vs vs v。 SS3采样。使用了不同的PLM:Proteinbert,Progen2(小,中,Xlarge),ESM2(650m,3b,15b),具有TL策略,包括Fe,Lora,Lora-,Lora-,适配器和适配器。红色虚线表示使用序列OHE训练的基线模型,请参见方法。(b)相对于FT(绿色)和Fe(蓝色)的基线的性能差异百分比。微调始终会产生更大的性能改进,尤其是在更复杂的数据集(如Meltome)中。BoxPlots在任务和TL方法之间显示出绩效增长的可变性。
电路中间测量 (MCM) 是容错量子计算发展中的关键因素。虽然在实现 MCM 方面取得了快速的实验进展,但表征噪声 MCM 的系统方法仍在探索中。在这项工作中,我们开发了一种循环基准 (CB) 型算法来表征噪声 MCM。关键思想是对经典和量子寄存器进行联合傅里叶变换,然后估计傅里叶空间中的参数,类似于 CB 型算法中用于表征 Clifford 门的 Pauli 噪声通道的 Pauli 保真度。此外,我们开发了一种 MCM 噪声可学习性的理论,该理论确定了哪些信息可以学习噪声模型(在存在状态准备和终止测量噪声的情况下)以及哪些信息不能学习,这表明所有可学习的信息都可以使用我们的算法来学习。作为一种应用,我们展示了如何使用学习到的信息来测试 MCM 中测量噪声和状态准备噪声之间的独立性。最后,我们进行数值模拟来说明该算法的实际适用性。与其他 CB 型算法类似,我们希望该算法能够提供一个具有实验意义的有用工具包。