N )在给定足够数量的明文-密文对的情况下搜索大小为 N 的密钥空间。Jaques 等人 (EUROCRYPT 2020) 的最新成果展示了在 NIST 的 PQC 标准化过程中定义的不同安全类别下针对 AES 的量子密钥搜索攻击的成本估算。在这项工作中,我们将他们的方法扩展到轻量级分组密码,以估算在电路深度限制下量子密钥搜索攻击的成本。我们给出了轻量级分组密码 GIFT、SKINNY 和 SATURNIN 的量子电路。在 NIST 的最大深度约束下,我们给出了门数和深度乘以宽度成本指标的总体成本。我们还为所有版本的 GIFT、SKINNY 和 SATURNIN 提供了完整的 Grover 预言机的 Q# 实现,用于单元测试和自动资源估算。
使用React Native,Flutter或Xamarin等框架,使用用户友好的界面,GPS跟踪和紧急SOS功能开发移动应用程序的实现涉及开发一个移动应用程序。后端API是使用node.js,django或Ruby在Rails上构建的,其数据库模式旨在存储用户信息,车辆数据和服务提供商详细信息。该应用程序与诸如Google Maps或Mapbox之类的映射服务以及Stripe,PayPal或Braintree等付款网关集成。服务提供商通过API开发集成,使他们能够接收请求,更新可用性和提供服务。该应用程序在App Store和Google Play商店部署前进行单元测试,集成测试和用户接受测试,并进行连续的监视和维护,以确保最佳性能。
防止域专家可用的常见错误。Julearn的创建是易于使用的,可用于具有不同背景的研究人员,并创造可重现的结果。此外,我们设计了Julearn,因此很容易扩展和维护,以便跟上神经科学和药物等不断发展的领域。Julearn的可访问性和可用性方面决定是核心,因为我们旨在帮助研究人员应用ML。我们通过仔细设计应用程序编程接口(API)来实现这一目标,仅包括一些简单的密钥功能和类来创建和评估复杂的ML管道。此外,我们添加了几个公用事业,使研究人员可以详细了解所得管道。为了使Julearn保持最新状态,我们在Scikit-Learn [3,4]的顶部构建了它,并遵循软件工程的共同最佳实践,例如单元测试和连续集成。
毫不奇怪,生成式 AI 和 LLM 主导了我们在本期雷达中的讨论,包括开发人员使用它们时出现的模式。模式不可避免地会导致反模式——开发人员应该避免的情境化情况。我们看到一些反模式开始出现在过度活跃的 AI 领域,包括人类可以完全用 AI 作为同伴取代结对编程的错误观念、对编码辅助建议的过度依赖、生成代码的代码质量问题以及代码库的更快增长速度。AI 倾向于通过蛮力解决问题,而不是使用抽象,例如使用数十个堆叠条件而不是策略设计模式。代码质量问题特别突出了开发人员和架构师需要持续努力的一个领域,以确保他们不会淹没在“工作但糟糕”的代码中。因此,团队成员应该加倍努力实现良好的工程实践——例如单元测试、架构适应度函数和其他经过验证的治理和验证技术——以确保 AI 正在帮助您的努力,而不是用复杂性加密您的代码库。
5.7.2 产品 - 配置管理 ................ 5.7.3.审计 - 配置管理 ................ 5.8 软件质量评估.......................... 5.8.1 活动 - 软件质量评估 ................ 5.8.1.1 规划 ........................ 5.8.1.2 内部评审 ........................ 5.8.1.2.1 评估标准 ........................ 5.8.1.2.2 内部评审 - 所有阶段 ............ 5.8.1.2.3 内部评审 - 软件需求分析 ........................ 5.8.1.2.4 内部评审 - 初步设计 ............ 5.8.1.2.5 内部评审 - 详细设计 ............ 5.8.1.2.6 内部评审 - 编码和单元测试 5.8.1.2.7 内部评审 - CSC 集成和测试................................. 5.8.1.2.8 内部审查 - CSCI 测试 ........... 5.8.1.3 正式审查和审计。................... 5.8.1.4 验收检查 ................................ 5.8,1.5 安装和检查 .................... 5.8.1.6 分包商产品的评估 ........................ 5.8.1.7 市场上可买到的、可重复使用的和政府提供的软件 ................ 5.8.1.8 质量记录的准备 ........................ 5.8.1.9 质量报告 ................................ 5.8.1.10 纠正措施系统 ......................’ 5.8.1.11 质量成本数据 ................................ 5.8.2 产品 - 软件质量评估 ........................ 5.8.2.1 质量记录 ................................ 5.8.2.2 质量报告 ................................ 5.8.2.3 认证 ................................ 5.8.3 独立性 ................................ 5.9 软件项目规划和控制 ........................ 5.9.1 活动 - 软件项目规划和控制 ........................ 5.9.1.1 规模和时间评估 ................ 5.9.1.2 状态和成本报告 .................... 5.9.1.3 测试文档控制 .................... 5.9.1.4 软件开发库(SDL)............... 5.9.1.5 风险管理 ..............................
我们详细介绍了机器学习自动级别的成功部署,该机器自动级别大大降低了分组计算机科学分配所需的分级人工。这项任务(将学生都任命为编程的游戏,该游戏由一个可控制的桨和一个球从桨上弹跳以折断砖头的游戏 - 很受欢迎,因为它吸引了具有入门计算机智能概念的学生,但产生了巨大的分级负担。由于游戏的互动性质,评分违反了传统的单元测试,而通常需要手动玩每个学生的游戏以搜索错误。这相当于标准课程提供的45小时的评分,并防止了进一步的分配。我们的自动骑士通过与强化学习者和为教师的发现错误的视频进行了每种学生游戏,从而减轻了这一负担。在用手动分级的A/B测试中,我们发现我们的人类AI自动载体将评分时间减少了44%,同时将分级准确度略有提高6%,最终在两份分配的产品中节省了大约30小时。我们的结果进一步表明,通过类似的机器学习技术对其他交互式作业(例如其他游戏或构建网站)进行分级的实用性。https://ezliu.github.io/breakoutgrader的实时演示。
我们对编程教育的自动化评分和反馈工具进行了系统文献综述。我们分析了2017年至2021年的121篇研究论文,并根据评估的技能,方法,语言范式,自动化程度和评估技术对它们进行了分类。大多数论文评估了以对象为导向的语言中作业的正确性。通常,这些工具使用动态技术,主要是单元测试,向学生提供成绩和反馈,或静态分析技术,以将提交与参考解决方案或一组正确的学生提交的提交进行比较。但是,这些技术的反馈通常仅限于单位测试是否通过还是失败,预期和实际输出,或它们与参考解决方案的不同。此外,很少有工具可以评估源代码的可维护性,可读性或文档,其中大多数使用静态分析技术(例如代码质量指标)以及对正确性的评分。此外,我们发现大多数工具提供了完全自动化的评估,以允许近乎持续的反馈和多次重新提交,这可以提高学生满意度并为他们提供更多成功的机会。在用于评估工具性能的技术方面,大多数论文主要使用学生调查或将自动评估工具与人类分级提供者提供的成绩或反馈进行比较。但是,由于评估数据集通常不可用,因此重现结果并将工具与共同任务的集合进行比较更加困难。
摘要 - 软件测试是软件开发的至关重要但耗时的方面,最近,大型语言模型(LLMS)已广受欢迎,可以自动化测试案例生成。但是,由于LLM经过大量开源代码培训,因此它们通常会生成不遵守最佳实践的测试用例,甚至可能含有测试气味(反patterns)。为了解决这个问题,我们提出了从静态质量指标(RLSQM)学习的强化学习,其中我们利用强化学习来基于基于静态分析的质量指标来生成高质量的单元测试。首先,我们分析了LLM生成的测试,并表明LLMS经常会产生不良的测试气味 - 大约37%。然后,我们使用此奖励模型实施了基于静态分析的轻量分析奖励模型和训练有素的LLM,以优化五个代码质量指标。我们的实验结果表明,与基本LLM相比,RL优化的Codex模型始终生成更高的测试用例,将质量指标提高了23%,并生成了近100%的语法校正代码。RLSQM在所有代码质量指标上也均优于GPT-4,尽管培训了基本更便宜的法典模型。我们提供了有关如何可靠地利用RL来提高测试发电质量的见解,并表明RLSQM是提高自动软件测试的整体效率和可靠性的重要一步。我们的数据可在以下链接上获得:https://doi.org/10.6084/m9.figshare.25983166。
电部门能力扩展模型被学术,政府和行业研究人员广泛使用,用于政策分析和计划。许多模型的能力,空间和时间分辨率和研究目的重叠,但由于参数和结构差异而产生不同的结果。以前的工作试图确定常用能力扩展模型之间的一些差异,但无法将参数从结构不确定性中解散。在这里,我们使用应用于美国电动部门的四个开源模型的高度简化场景提出了模型基准测试。我们通过使用通用数据集消除了所有参数不确定性,而仅留下结构差异。我们演示了系统模型比较过程如何使我们能够在模型之间查明特定而重要的结构差异,包括将技术的规格规定为基本负载或后代的负载,在建模时期的开始和结束时,电池最新的电池充电,电池往返效率的应用,折现率的处理,折现率的处理,模型最终效果的构成效果以及输入参数的数字精度。我们的结果表明,这样的过程可以有效地提高模型的一致性和建立模型的信心,对特定的建模选择,报告不确定性以及确定进一步研究和开发的领域。我们还引入了一个开源测试数据集,建模社区可以用于单元测试和构建基准测试,以对更复杂的模型进行基准测试练习。社区基准努力可以增加能源建模者之间的协作,并为其他利益相关者(例如政策制定者)提供有关能源过渡和能源挑战的透明度。
大肠杆菌DNA污染单元测试了N/A N/A 100 100 100规格> 99%13,333 U/mg功能性功能性NO conversion <10份蛋白质来源:重组大肠杆菌菌株,携带毒液T7基因5和E. coli trxa基因。单位定义:1个单位定义为将10 nmol的总DNTPS转换为酸不溶性材料所需的聚合酶量,在37°C下30分钟内。分子量:92.1 KDA质量控制分析:使用2倍连续稀释方法测量单位活动。稀释酶,并将其添加到含有小腿胸腺DNA,1x T7 DNA聚合酶单位表征缓冲液(20 mM Tris-HCl,100 mm KCl,6 mM MGCL,6 mM MGCL 2,6mmmmmgcl 2,0.1 mm EDTA,5 mmβ-MMβ-MERCAPTOETOETHANANOL),3 H-DTT的反应中,3 H-DTT,在37°C下孵育10分钟,浸入冰上,并使用Sambrook和Russell的方法进行分析(6)。蛋白浓度(OD 280)由OD 280吸光度确定。物理纯度,然后进行银色染色检测。通过比较浓缩样品中污染物带的聚集质量与稀释样品中蛋白蛋白蛋白带的质量来评估纯度。单链核酸酶在含有放射性标记的单链DNA底物的50 µL反应中确定,在37°C下孵育4小时4小时。双链外切核酸酶在50 µL反应中确定,该反应含有放射性标记的双链DNA底物和10 µL的酶溶液在37°C下孵育4小时。双链核酸内切酶在50 µL反应中确定,该反应含有0.5 µg质粒DNA和10 µL的酶溶液在37°C下孵育4小时。大肠杆菌16S rDNA的污染是使用5 µL r菌酸溶液的样品变性的样品,并在Taqman QPCR分析中筛选,以使用与16S rRNA locus相应的寡核苷酸引物,使用污染的大肠杆菌Genomic DNA。