摘要 - LARGE语言模型(LLMS)已被用来用于自动化漏洞维修中,但是台上标记表明它们可以始终如一地识别与安全性相关的错误。因此,我们开发了Secllmholmes,这是一个完全拟定的评估框架,该框架迄今为止对LLMS是否可以可靠地识别和有关安全相关的错误进行了最详细的调查。我们构建了一组228个代码方案,并使用我们的框架分析了八个不同调查维度的八个最有能力的LLM。我们的评估表明LLM提供了非确定性的反应,不正确且不忠的推理,并且在现实世界中的表现不佳。最重要的是,我们的发现在最先进的模型(例如“ Palm2”和“ GPT-4”(GPT-4')中揭示了明显的非舒适性:仅通过更改函数或可变名称,或通过在源代码中添加库函数,这些模型分别在26%和17%的情况下可以产生错误的答案。这些发现表明,在将LLMs用作通用安全助理之前,需要进一步的LLM前进。
摘要 - Text到SQL系统通过将自然语言查询转换为结构化查询语言(SQL),从而促进与数据库的平稳互动,从而弥合非技术用户与复杂数据库管理系统之间的差距。本调查提供了对AI驱动的文本到SQL系统演变的全面概述,突出了其基础组件,大语言模型(LLM)体系结构的进步以及蜘蛛,WikisQL和COSQL等数据集的关键作用。我们研究了医疗保健,教育和金融等领域中文本到SQL的应用,并强调了它们改善数据可访问性的变革潜力。此外,我们还分析了持续的挑战,包括域的概括,查询优化,对多转交谈的支持以及针对NOSQL数据库量身定制的数据集和动态现实世界情景的有限可用数据集。为了应对这些挑战,我们概述了未来的研究方向,例如扩展文本到SQL功能以支持NOSQL数据库,设计用于动态多转变交互的数据集,并为现实世界中的可伸缩性和鲁棒性优化系统。通过调查当前的进步并确定关键差距,本文旨在指导基于LLM的文本到SQL系统中的下一代研究和应用。索引术语 - LLM,文本到SQL,自然语言处理,人工智能,AI Gen,基准测试,数据集,模式链接,SQL生成。
摘要简介:灰色短尾负鼠(Monodelhis domestica,M. domestica)是一种广泛使用的有袋动物模型物种,在神经发育研究中具有独特的优势。值得注意的是,它们极晚熟的出生时间使得可以在相当于胎盘哺乳动物胚胎阶段的时间点对出生后的幼崽进行操作。关于短尾负鼠的发育有大量的文献,但许多研究更传统的小鼠和大鼠模型物种的研究人员可能会发现很难确定进行实验的适当年龄。方法:在这里,我们展示了从对 6 窝 40 只幼崽的摄影观察中获取的详细分期图,这些幼崽横跨出生后发育的 25 个时间点。我们还利用本研究和现有文献回顾中的时间点,对短尾负鼠 (M. do- mestica)、家鼠 (Mus musculus) 和实验室大鼠 (Rattus norvegicus) 在胚胎和出生后发育过程中的神经发育时间进行了比较,并利用了该数据集
致谢 由于我们的 2023 年第一季度基准测试方法需要更多来自光伏 (PV) 和存储行业的直接投入,因此今年我们与比近几年更多的专家参与者进行了交流。 2023 年 2 月,我们参加了在加利福尼亚州长滩举行的北美国际太阳能展览会和北美储能展览会,在那里我们收集了 100 多家参展商的现场数据和见解。 会议结束后,我们对大约 40 位与模块、逆变器、储能系统和系统平衡组件的制造和销售以及光伏和储能系统的安装相关的专家进行了深入的访谈和通信。 我们感谢所有这些参与者的帮助。 本报告中汇总并匿名化了结果数据,以制定我们的 2023 年第一季度成本基准。 但是,为了尊重可能希望保持完全匿名的参与者的意愿,我们在此仅列出同意被致谢的参与者。
缩略词列表 ac 交流电 AD/CVD 反倾销和反补贴税 BESS 电池储能系统 BLS 美国劳工统计局 BNEF BloombergNEF BOS 系统平衡 CBP 美国海关和边境保护局 CPI 消费者价格指数 dc 直流电 DOE 美国能源部 EPC 工程、采购和施工 GAAP 美国公认会计原则 HVAC 供暖、通风和空调 IFRS 国际财务报告准则 ILR 逆变器负载率 IRR 内部收益率 kWh 千瓦时 LBNL 劳伦斯伯克利国家实验室 LCOE 平准化能源成本 LFP 磷酸铁锂 Li-ion 锂离子 MMP 模型市场价格 MSP 最低可持续价格 MW ac 兆瓦交流电 MW dc 兆瓦直流电 MSRP 制造商建议零售价 NEM 净能量计量 NREL 国家可再生能源实验室 O&M 运营和维护 PII 许可、检查和互连 PPA 购电协议 PV光伏 PVCS 光伏组合开关设备 Q 季度 R&D 研究与开发 RTE 往返效率 SAM 系统顾问模型 SAPC 太阳能获取公共资本 SEIA 太阳能产业协会 SETO 美国能源部太阳能技术办公室 SG&A 销售、一般及行政管理 SOC 充电状态 STC 标准测试条件 UFLPA 维吾尔族强迫劳动预防法
在 1.5 °C 一致情景下,到 2050 年煤炭产量将下降 95%,石油和天然气产量将下降至少 65%,在某些路径下甚至会下降 100%。与这一明确的当务之急相反,许多主要生产国都计划在未来几十年增加化石燃料产量。这导致各国的计划产量与《巴黎协定》目标之间的“产量差距”。现有的国家自主贡献证实了这一产量差距,大多数主要生产国的国家自主贡献都明确表示化石燃料产量将继续或增加。除非扭转这些扩大化石燃料生产的计划,并制定与全球气候目标相兼容的国家淘汰路径,否则以公正、有序和公平的方式实现这一转变将变得不可能。
千足片是将叶子回收到热带生态系统中的土壤中的关键参与者。为了阐明其肠道菌群,我们从波多黎各的不同城市收集了千足虫。在这里,我们的目标是基准哪种方法最适合这个高度复杂的千足型微生物组的元基因组脱脂。我们用牛津纳米孔技术(ONT)奴才序列对肠道DNA进行了测序,然后使用Megan-LR,Kraken2蛋白模式,Kraken2核苷酸模式,GraphMap和MiniMAP2分析了数据,以对这些较长的ONT进行分类。从我们的两个样本中,我们分别获得了87,110和99,749个ONT读数。kraken2核苷酸模式与门和类分类级别的所有其他方法相比,读取最多的读取性,对两个样本中的读取中的75%进行了分类,其他方法未能分配足够的读数,以在类似物稀有曲线中产生分类曲线,以表明它们需要对这些进行分类的较大分类,以使这些曲线分为稀有曲线,以完全进行分类以进行分类。社区的各种方法是多种多样的,所有方法将两个样本中的20-50门分类。使用的读取和门类似于五个基准测试的读数和门的明显重叠。我们的结果表明,Kraken2核苷酸模式是应用这个高度复杂群落的宏基因组学脱脂的最合适工具。
我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
例子包括 IBM 的 Quantum VOLUME 和 CLOPS、Super-Tech 的 SupermarQ 或伯克利实验室的 Quantum LINPACK 以及 QED-C Benchmarks。这些方法中使用的指标相对技术性强,需要一定的底层技术知识。它们通常不提供在不同现有量子平台上执行的不同算法系列的性能操作指标。
• U.S. Census Bureau – QuickFacts • U.S. Census Bureau Exploring Age Groups in the 2020 Census • County Health Rankings and Roadmaps • USDA Food Access Research Atlas • Elder Economic Security Standard€ Index • America's Health Rankings – Risk of Social Isolation (over age 65), by county • Background info on collecting and analyzing data for food-related grant projects • National benchmarks for congregate nutrition programs