提供对各种机器学习算法的理解以及评估 ML 算法性能的方法 UNIT - I:简介:人工智能问题、代理和环境、代理结构、问题解决代理基本搜索策略:问题空间、无信息搜索(广度优先、深度优先搜索、深度优先与迭代深化)、启发式搜索(爬山法、通用最佳优先、A*)、约束满足(回溯、局部搜索) UNIT - II:高级搜索:构建搜索树、随机搜索、AO* 搜索实现、极小极大搜索、Alpha-Beta 剪枝基本知识表示和推理:命题逻辑、一阶逻辑、前向链接和后向链接、概率推理简介、贝叶斯定理 UNIT - III:机器学习:简介。机器学习系统,学习形式:监督学习和非监督学习,强化学习 – 学习理论 – 学习的可行性 – 数据准备 – 训练与测试和拆分。第四单元:监督学习:回归:线性回归、多元线性回归、多项式回归、逻辑回归、非线性回归、模型评估方法。分类:支持向量机 (SVM)、朴素贝叶斯分类第五单元:无监督学习最近邻模型 – K 均值 – 围绕中心点聚类 – 轮廓 – 层次聚类 – kd 树、聚类树 – 学习有序规则列表 – 学习无序规则。强化学习 – 示例:迷路 – 状态和动作空间
●什么是genai:AIGC是通过获取人类的指示,从中获得含义以及使用该目标信息来创建内容根据其知识和理解来创建的。大规模模型近年来在AIGC中具有重要意义,因为它们可以提取出色的意图,从而可以提取更好的生成结果。随着数据和模型大小的增加,模型可以学习的分布变得更加广泛,对现实变得更加真实,从而创建了更高质量和更现实的内容。本调查对随着时间的推移的生成模型的发展进行了详尽的分析,并概述了它们从单峰到多模式相互作用的AIGC中的基本元素和当前的发展。我们从非模式的角度提供了生成任务以及相关的文本和图像模型。II。 AI和生成的历史:生成AI,也称为生成建模,是人工智能(AI)的一个分支,致力于创建能够生成类似于给定数据集的新数据的模型。 该领域的历史悠久数十年,由于深度学习和神经网络的发展,近年来取得了重大进步。 以下是生成AI的历史的详细概述:2010年代见证了生成AI的重大突破,这在很大程度上是由深度学习进步所驱动的。 AutoCododers(VAE)由Kingma和Welling在2013年推出,为学习潜在数据表示提供了一个概率框架。 生成对抗网络(GAN),由Ian Goodfellow等人提出。II。AI和生成的历史:生成AI,也称为生成建模,是人工智能(AI)的一个分支,致力于创建能够生成类似于给定数据集的新数据的模型。该领域的历史悠久数十年,由于深度学习和神经网络的发展,近年来取得了重大进步。以下是生成AI的历史的详细概述:2010年代见证了生成AI的重大突破,这在很大程度上是由深度学习进步所驱动的。AutoCododers(VAE)由Kingma和Welling在2013年推出,为学习潜在数据表示提供了一个概率框架。生成对抗网络(GAN),由Ian Goodfellow等人提出。在2014年,基于对抗性训练引入了一种新颖的生成建模方法。gan由两个神经网络组成,一个发电机和一个歧视器,在最小值游戏框架中同时训练有素,在该框架中,生成器学会了生成逼真的数据,而歧视器则学会区分真实数据和生成数据。gan在生成高质量的图像,音频,文本和其他类型的数据方面取得了显着成功,从而导致艺术生成,图像合成和数据增强的广泛应用
2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-