摘要 - LARGE语言模型(LLMS)已显示出涉及结构化和非结构化文本数据的各种任务中的不断表现。最近,LLMS表现出了非凡的能力,可以在不同的编程语言上生成代码。针对代码生成,维修或完成的各种基准测试的最新结果表明,某些模型具有与人类相当甚至超过人类的编程能力。在这项工作中,我们证明了这种基准上的高性能与人类的先天能力理解代码的结构控制流。为此,我们从Hu-Maneval基准测试中提取代码解决方案,相关模型在其上执行非常强烈的执行,并使用从相应的测试集采样的函数调用来追踪其执行路径。使用此数据集,我们研究了7个最先进的LLM与执行跟踪匹配的能力,并发现尽管该模型能够生成语义上相同的代码,但它们仅具有跟踪执行路径的能力有限,尤其是对于更长的轨迹和特定的控制结构。我们发现,即使是表现最佳的模型,Gemini 1.5 Pro只能完全正确地生成47%的人道任务的轨迹。此外,我们引入了一个不在人道主义的三个关键结构的子集,或者仅在有限的范围内包含:递归,并行处理和面向对象的编程原理,包括诸如继承和多态性之类的概念。是oop,我们表明,没有研究的模型在相关痕迹上的平均准确度超过5%。通过无处不在的人道任务进行这些专门的部分,我们介绍了基准椰子:用于导航理解和测试的代码控制流程,该椰子可以衡量模型在相关呼叫(包括高级结构组件)中跟踪代码执行的模型。我们得出的结论是,当前一代LLM仍需要显着改进以增强其代码推理能力。我们希望我们的数据集可以帮助研究人员在不久的将来弥合这一差距。索引术语 - 代码理解,大语言模型,代码执行,基准
联邦医疗保险处方付款计划可能受益通知 (CMS-10882) 根据该法案第 1860D–2(b)(2)(E)(v)(III)(dd) 和 1860D–2(b)(2)(E)(v)(III)(ee) 节,D 部分发起方必须有一种机制,当 D 部分参保者因承保的 D 部分药物而产生自付费用时,通知药房,这些药物可能使参保者从参与该计划中受益,并且必须规定药房在收到此类通知后,将该计划告知参保者。此外,如联邦医疗保险处方付款计划第二部分指南中所述,CMS 要求 D 部分发起方在计划年度之前和期间直接向可能从该计划中受益的 D 部分参保者进行有针对性的宣传。为了支持 D 部分发起人满足这些要求,CMS 为被确定为可能从 Medicare 处方付款计划中受益的 D 部分参保人制定了一份标准化通知,即“Medicare 处方付款计划可能受益通知”。D 部分发起人必须使用此标准化通知来履行其义务,即对被确定为可能在计划年度之前和期间受益的 D 部分参保人进行有针对性的宣传,包括通过药房通知流程确定的参保人。当此宣传在药房销售点 (POS) 通知流程之外进行时,可以通过邮件或电子方式进行(基于 D 部分参保人的首选和授权通信方式)。如果参保人是通过药房通知流程确定的,则此宣传必须在药房 POS 完成。有关 D 部分发起人必须如何以及何时使用“Medicare 处方付款计划可能受益通知”来满足有针对性的宣传要求的具体参数在 Medicare 处方付款计划第二部分指南中概述。这是一份标准化通知,其内容不得更改。OMB 控制编号必须显示在通知的右下角。当药房分发时,无需标题徽标。当由 D 部分赞助商在药房 POS 流程之外分发时,D 部分计划可以选择将其徽标放在标题中。如果 D 部分计划的名称、地址和电话号码未包含在徽标内,则必须位于徽标正下方。表格 CMS-10882 OMB 批准号 0938-1475(到期日期:2025 年 7 月 31 日)