生成的AI和大型语言模型通过自动为学生产生个性化的反馈来增强编程教育。我们调查了生成AI模型在提供人类辅导员风格的编程提示中的作用,以帮助学生解决其越野车计划中的错误。重新制作的作品对各种反馈生成方案的最新模型进行了基准测试;但是,它们的整体质量仍然不如人类的辅导员,尚未准备好现实世界。在本文中,我们试图将生成AI模型的限制推向提供高质量的编程提示,并开发出一种新颖的技术GPT4HINTS-GPT3.5VAL。作为第一步,我们的技术利用GPT-4作为“辅导”模型来生成提示 - 它通过使用未完成的测试用例和提示中修复的符号信息来提高生成质量。作为下一步,我们的技术利用GPT-3.5(一个较弱的模型)作为“学生”模型来进一步验证提示质量 - 它通过模拟提供此反馈的潜在实用性来执行自动质量有效性。我们通过对Python程序的三个现实数据集进行了广泛的评估来显示我们的技术的功效,这些数据集涵盖了从基本算法到使用PANDAS库的正则表达式和数据分析的各种概念。
i NLP 1 1简介的基本算法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。3 2正则表达式,令牌化,编辑距离。。。。。。。。。。。。。。。4 3 n克语言模型。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。32 4天真的贝叶斯,文本分类和情感。。。。。。。。。。。。。。。。。56 5逻辑回归。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。77 6矢量语义和嵌入。。。。。。。。。。。。。。。。。。。。。。。。。。。。。101 7神经网络。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。132 8 RNN和LSTMS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。158 9变压器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。184 10大语言模型。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>203 11蒙版语言模型。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>223 12模型对齐,提示和内在学习。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>242 div>
I.引言Semigroups是抽象代数中基本代数结构的基本代数结构,在数学和计算机科学的各个领域都有重要的应用。半群是配备了关联二进制操作的集合,使其成为代数中最简单但最通用的结构之一。半群的重要性不仅限于纯数学,而是扩展到理论计算机科学,尤其是在自动机理论和正式语言中[1,2,3]。Automata理论,理论计算机科学的基础区域,研究摘要机器及其解决的问题。有限的自动机是最简单的计算模型之一,通过句法半群的概念与半群密切相关,这些概念是自动机识别的语言[4,5]。具体来说,有限自动机的状态可以解释为半群的元素,并且状态之间的过渡是由半群操作定义的。自动机和半群之间的这种相互作用为理解计算过程和语言识别提供了一个强大的框架[6,7]。在正规语言的研究中,半群在形式语言理论中的应用尤其明显,这正是有限自动机识别的语言类别。普通语言可以通过正则表达式描述,又可以将其映射到有限的自动机。每种普通语言都有相关的句法半群,这是一个封装
(电邮:twinson@mtr.com.hk、+852-2688 1337) 4 香港数据科学研究所 / 香港城市大学数据科学学院,香港九龙达之路(电邮:yuyang@cityu.edu.hk、Joe.Qin@cityu.edu.hk、qingpeng.zhang@cityu.edu.hk、lishuai.li@cityu.edu.hk) 5 香港城市大学建筑及土木工程系,香港九龙达之路(电邮:paullam@cityu.edu.hk) 背景 香港是世界上人口最密集的城市之一。为满足市民的出行需求,铁路每天的服务时间很长,导致维护时间很短。为了进一步提高铁路的安全性和可靠性,重要的是实施有效的方法分析铁路事故,探索事故之间的相关性,并对铁路系统中高风险设备和区域发出警报,以实现对铁路轨道系统的新型预测性维护。近年来,数据驱动方法迅速渗透到制造业、金融业、交通运输业、网络安全和医疗保健等各个行业领域。因此,在本研究中,我们旨在通过建立人工智能(AI)模型,利用广泛的铁路数据,例如铁路事故报告、维护记录、实时状况数据和在线信息,这些数据对于深入了解导致铁路轨道事故的不同关联程度的相关因素很有价值。在人工智能模型构建方面,将原始数据转化为结构化知识至关重要,这样人工智能技术才能有效地处理数据并使用数据进行预测。许多信息提取技术用于将原始数据转换为结构化数据。例如,正则表达式(Regex)通常用于提取特定的关键字;可以应用插值方法来处理原始数据中的缺失值;四分位距(IQR)用于去除原始数据中可能误导下游数据分析任务的异常值;复杂的无监督学习方法,如主成分分析(PCA)(Pearson,1901)和K均值(Lloyd,1982;MacQueen,1967),用于提取信息特征。
部分I(主题 /学科) - 100个问题工程数学离散数学:命题和一阶逻辑。集,关系,功能,部分订单和晶格。组。图形:连接性,匹配,着色。组合学:计数,复发关系,生成函数。线性代数:矩阵,决定因素,线性方程系统,特征值和特征向量,LU分解。微积分:限制,连续性和不同性。Maxima和minima。平均值定理。集成。概率:随机变量。统一,正常,指数,泊松和二项式分布。是指中位数,模式和标准偏差。条件概率和贝叶斯定理。数字逻辑布尔代数。组合和顺序电路。最小化。数字表示和计算机算术(固定和浮点)。计算机组织和架构机器指令和地址模式。alu,数据路径和控制单元。说明管道。内存层次结构:缓存,主内存和辅助存储; I/O接口(中断和DMA模式)。编程和数据结构编程在C.递归中。数组,堆栈,队列,链接列表,树,二进制搜索树,二进制堆,图。算法搜索,排序,哈希。渐近最差的情况和空间复杂性。算法设计技术:贪婪,动态编程和分裂和串扰。运行时环境。图形搜索,最小跨越树,最短路径。计算正则表达式和有限自动机理论。无上下文的语法和推下自动机。普通语言和无语言,泵送引理。图灵机和不可证明的能力。编译器设计词汇分析,解析,语法定向翻译。中间代码生成。操作系统过程,线程,过程间通信,并发和同步。僵局。CPU计划。内存管理和虚拟内存。文件系统。数据库ER模型。关系模型:关系代数,元组演算,SQL。完整性约束,正常形式。文件组织,索引(例如B和B+树)。交易和并发控制。计算机网络
信息学 (INFM) INFM 110. 信息学简介 (3 小时) 先决条件:INSY 102。本课程包括信息学学科的定义和概述,重点是其与组织环境中的计算机信息处理的关系。它向学生介绍了如何使用信息技术、信息表示、布尔代数、命题逻辑、关系数据库、系统设计和新开发的尖端数据管理技术解决问题。学生将开始评估这些方法对科学和社会的影响。实验室费用。INFM 120. 计算机系统简介 (3 小时) 先决条件:INFM 110;数学 130。由于计算机是信息学研究和实践中的核心技术产物,本课程将向学生介绍计算机体系结构的基础知识,并评估体系结构对信息学学科的影响。将特别关注流行的商用计算机操作系统、网络操作系统和免费软件/共享软件系统。实验室费用。 INFM 202. 图形和界面设计 (3 小时) 先决条件:INSY 102 或同等课程。本课程提供机会培养处理矢量和像素图形所需的知识和技能。它介绍了图像处理概念和方法,用于优化图形和其他多媒体组件在 Web 应用程序中的使用。作为 Web 设计生产周期中的关键步骤之一,将使用软件工具引入并完成高保真细节的原型。实验室费用。INFM 205. 健康信息学调查 (3 小时) 先决条件:INSY 102;LBST 175、180 或同等课程。医院和医疗保健信息系统 (HHIS) 中的现代信息和通信技术调查。学生将回顾健康信息学文献中描述的科学技术和方法。学生将探索 HHIS 如何改善医院医疗保健和临床流程的质量和管理,以及与共享公共卫生信息相关的安全问题。实验室费用。 INFM 210. 信息学编程概念(3 小时)先决条件:INFM 120;MATH 181。本课程介绍用于解决问题的编程语言概念,介绍几种编程语言的语法和语义。主题包括:输入/输出、变量和数据类型、表达式和运算符、正则表达式、条件语句、迭代语句、设计 I(伪代码)、对象模型、设计 II(逐步细化)、函数和数组。实验室费用。INFM 212. Web 开发(3 小时)先决条件:INFM 210。
第2节:数字逻辑布尔代数。组合和顺序电路。最小化。数字表示和计算机算术(固定和浮点)。第3节:计算机组织和架构机器指令和地址模式。alu,数据路径和控制单元。说明管道。内存层次结构:缓存,主内存和辅助存储; I/O接口(中断和DMA模式)。第4节:c中的编程和数据结构编程。递归。数组,堆栈,队列,链接列表,树,二进制搜索树,二进制堆,图。算法:搜索,排序,哈希。渐近最差的时间和空间复杂性。算法设计技术:贪婪,动态编程和分裂和概述。图形搜索,最小跨越树和最短路径。Section 5: Machine Learning: Types of Learning, Bias-Variance Trade-off, Overfitting, Underfitting, Evaluation Metrics, Supervised Learning: Regression and Classification Problems – Linear Regression, Logistic Regression, K-Nearest Neighbors, Naïve Bayes Classifier, Support Vector Machine, Decision Trees, Random Forests, Cross-validation Techniques, Unsupervised Learning: K-Means Clustering, Hierarchical聚类,降低维度 - 主成分分析(PCA)。第6节:计算正则表达式和有限自动机理论。无上下文的语法和推下自动机。普通语言和无上下文的语言,泵送引理。图灵机和不可证明的能力。运行时环境。第7节:编译器设计词汇分析,解析,语法定向翻译。中间代码生成。第8节:操作系统过程,线程,过程间通信,并发和同步。僵局。CPU计划。内存管理和虚拟内存。文件系统。第9节:数据库ER -MODEL。关系模型:关系代数,元组演算,SQL。完整性约束,正常形式。文件组织,索引(例如B和B+树)。交易和并发控制。第10节:计算机网络分层的概念。LAN Technologies(以太网)。流量和错误控制技术,切换。IPv4/ipv6,路由器和路由算法(距离向量,链接状态)。TCP/UDP和插座,拥塞控制。应用程序层协议(DNS,SMTP,POP,FTP,HTTP)。Wi-Fi的基础知识。网络安全:身份验证,公钥和私钥密码学的基础知识,数字签名和证书,防火墙。
Feith 使用人工智能作为工具来分析、预测和分类 FOIA 内容,无需明确指示或编程。AI 可让您降低成本、提高可靠性、提高速度、增加数量并了解您的目标是什么。自然语言处理 Feith 多年来一直使用自然语言处理 (NLP) 来处理包含大量信息的大量文档。实施自然语言处理可让您的计算机理解口头或书面文本。除了使用适当的元数据集存储文档外,Feith 还利用实体提取。实体提取可捕获标准元数据无法捕获的内容,例如姓名、地点、组织、日期、州、犯罪或任何数量的主题。Feith 还可以从文本数据中识别关键信息。一旦识别,就可以将数据归类为预定义类别。如果这个过程是手动完成的,知识工作者就必须进入每个单独的文档并标记出所有正确的名称和地点。Feith 还可以利用关系提取将单词、短语或句子与其他单词、短语或句子关联起来。此 AI 功能可提取非结构化源中两个实体之间的关系。例如,如果特定代词与句子的某个部分相关。Feith 使用因果关系检测来识别原因或行为的底层网络。然后它可以从该原因或行为中获得洞察力。例如,如果有人写了一封包含术语“胃”的电子邮件,系统将能够将其与术语“解剖学”联系起来。系统分析句子结构并检测文本中存在关系的事实,根据这些关系对其置信度进行评分,并从其他数据集中提取其他概念。自然语言处理为用户提供了所有软件应该能够做到的标准事情的视觉表示,以降低成本、提高可靠性、提高速度、增加数量并了解您的目标是什么。结果是用户从系统中获得有价值的信息,而 FOIA 工作人员可以关联以前无法关联的数据。自动分类 用于分类和分类的 AI 教会计算机根据数据预测结果,以及如何根据该数据对文档进行分类或分类。例如,如果每个 1099 MISC 文档在页面底部都包含术语“1099 MISC”。Feith 的自动分类模块使用一种称为正则表达式和计算的功能,这意味着它将找到被搜索的确切单词或找到遵循给定模式的单词或短语。由于其格式,系统将确信该文件是 1099 MISC 文档。