近年来,生成式检索已成为传统检索范式的一种颇具前景的替代方案。它为每个文档分配一个唯一的标识符(称为 DocID),并使用生成模型直接生成与输入查询相关的 DocID。DocID 通常选择一个或多个自然语言序列,例如标题、合成查询或 n-gram,以便有效地利用生成模型的预训练知识。然而,生成式检索是逐个标记生成的,每次解码时仅保留最可能的候选标记,其余标记则被剪枝。因此,如果相关 DocID 中的任何标记被错误地剪枝,检索就会失败。更糟糕的是,在解码过程中,模型只能感知 DocID 中前面的标记,而无法感知后面的标记,因此很容易出现此类错误。为了解决这个问题,我们提出了一种新颖的生成检索框架,称为术语集生成 (TSGen)。我们使用一组术语作为 DocID,而不是序列。这些术语是根据从相关性信号中学习到的权重来选择的,因此它们可以简明扼要地概括文档的语义并将其与其他文档区分开来。在术语集 DocID 的基础上,我们提出了一种排列不变的解码算法,使用该算法,可以以任何排列生成术语集,但始终会指向相应的文档。值得注意的是,TSGen 在每个解码步骤中都会感知所有有效术语,而不仅仅是前面的术语。鉴于解码空间恒定,它可以从更广阔的视角做出更可靠的决策。TSGen 也具有很强的错误抵御能力:只要解码的
建模和搜索。问题表示方法(状态空间表示、问题分解、约束满足问题、逻辑表示),使问题可以被视为路径查找问题。路径查找问题的图形表示。AND/OR 图。搜索系统的总体方案。搜索系统的控制策略和启发式方法。启发式搜索。著名的不可撤销策略:爬山搜索、禁忌搜索、模拟退火算法。尝试性策略:回溯算法和图搜索算法(A*、B、EMA* 等)。进化算法。双人游戏。游戏的表示。获胜策略。子树评估:极小最大算法和 alpha-beta 剪枝。机器学习简介。监督学习和一些示例(k-最近邻方法、决策树、随机森林、深度学习)。无监督学习和一些示例(k-均值算法、主成分分析)。
课程内容/教学大纲简介:范围;历史、趋势和未来方向。通过搜索解决问题:生产系统和人工智能;图搜索策略:无信息搜索、启发式搜索技术;约束满足问题;随机搜索方法;搜索博弈树:极小极大、Alpha-Beta 剪枝。知识表示和推理:人工智能中的谓词演算:语法和语义、表达力、统一性、解析度;解析度反驳系统;情境演算。不确定性下的推理:不确定性概念;不确定知识和推理、概率;贝叶斯网络。规划:使用状态空间搜索进行规划;规划图;偏序规划。决策:顺序决策问题、最优策略算法。机器学习:从观察中学习:不同形式学习的概述、学习决策树、计算学习理论、统计学习方法、神经网络和联结主义学习。
摘要 — 设计能够实现不同游戏风格同时又能保持竞争水平的代理是一项艰巨的任务,尤其是对于研究界尚未发现超人表现的游戏,如策略游戏。这些游戏要求人工智能处理大动作空间、长期规划和部分可观察性,以及其他众所周知的使决策成为难题的因素。除此之外,使用通用算法实现不同的游戏风格而不降低游戏实力并非易事。在本文中,我们提出了用于玩回合制策略游戏 (Tribes) 的具有渐进式反剪枝的组合蒙特卡洛树搜索,并展示了如何对其进行参数化,以便使用质量多样性算法 (MAP-Elites) 来实现不同的游戏风格,同时保持竞争水平。我们的结果表明,即使对于超出用于训练的游戏级别范围的大量游戏级别,该算法也能够实现这些目标。
简介 游戏长期以来一直是人工智能的流行基准。许多研究人员研究了各种算法和技术,试图在国际象棋、围棋、赛车游戏、吃豆人小姐、实时战略 (RTS) 游戏和超级马里奥兄弟等不同的计算机游戏中逼近最佳玩法。有时,这些研究主题伴随着某种竞赛,在统一的基准中测试不同的方法。游戏研究使算法 AI 取得了一些有趣的进展,例如使用并行 Alpha-Beta 剪枝(在国际象棋中),或在围棋游戏中看到的游戏 AI 中最流行的算法之一蒙特卡洛树搜索 (MCTS) 的进展。虽然特定游戏研究的贡献确实很重要,但特定游戏竞赛由于其固有结构而存在一个问题:提出的大多数解决方案往往过于专注于它们所应用的领域。换句话说,挑战的性质,甚至是赢得比赛的斗争,都鼓励参与者为算法提供高度定制的启发式方法,这些启发式方法仅适用于用于挑战的游戏。例如,世界冠军星际争霸代理
评估 ML 算法的性能 UNIT - I:简介:AI 问题、代理和环境、代理结构、问题解决代理基本搜索策略:问题空间、无信息搜索(广度优先、深度优先搜索、深度优先与迭代深化)、启发式搜索(爬山法、通用最佳优先、A*)、约束满足(回溯、局部搜索) UNIT - II:高级搜索:构建搜索树、随机搜索、AO* 搜索实现、极小极大搜索、Alpha-Beta 剪枝基本知识表示和推理:命题逻辑、一阶逻辑、前向链接和后向链接、概率推理简介、贝叶斯定理 UNIT - III:机器学习:简介。机器学习系统,学习形式:监督学习和无监督学习,强化 – 学习理论 – 学习可行性 – 数据准备 – 训练与测试和拆分。第四单元:监督学习:回归:线性回归、多元线性回归、多项式回归、逻辑回归、非线性回归、模型评估方法。分类:支持向量机 (SVM)、朴素贝叶斯分类
第一单元 - 介绍 9 介绍 - 定义 - 人工智能的未来 - 智能代理的特征 - 典型的智能代理 - 典型人工智能问题的解决方法。第二单元 - 问题解决方法 9 问题解决方法 - 搜索策略 - 不知情 - 知情 - 启发式 - 局部搜索算法和优化问题 - 使用部分观察进行搜索 - 约束满足问题 - 约束传播 - 回溯搜索 - 游戏玩法 - 游戏中的最佳决策 - Alpha - Beta 剪枝 - 随机游戏。第三单元 - 知识表示 9 一阶谓词逻辑 – Prolog 编程 – 统一 – 前向链接 – 后向链接 – 解析 – 知识表示 - 本体工程-类别和对象 – 事件 - 心理事件和心理对象 - 类别推理系统 - 使用默认信息进行推理。第四单元 - 软件代理 9 智能代理架构 – 代理通信 – 谈判和讨价还价 – 代理之间的争论 – 多代理系统中的信任和声誉。第五单元 - 应用 9 人工智能应用 – 语言模型 – 信息检索- 信息提取 – 自然语言处理 - 机器翻译 – 语音识别 – 机器人 – 硬件 – 感知 – 规划 – 移动。
安全对齐的大型语言模型 (LLM) 容易受到有害的微调攻击 (Qi 等人,2023)——微调数据集中混入一些有害数据可能会破坏 LLM 的安全对齐。现有的缓解策略包括对齐阶段解决方案 (Huang、Hu 和 Liu,2024;Rosati 等人,2024a) 和微调阶段解决方案 (Huang 等人,2024;Mukhoti 等人,2023)。然而,我们的评估表明,当选择某些特定的训练超参数时,这两类防御都会失败——微调阶段的较大学习率或大量训练周期很容易使防御失效,但这对于保证微调性能是必要的。为此,我们提出了 Antidote,这是一种后微调阶段解决方案,它与微调阶段的训练超参数无关。 Antidote 的理念是,通过删除有害参数,可以从有害行为中恢复有害模型,而不管这些有害参数在微调阶段是如何形成的。基于这一理念,我们在有害微调之后引入了一次性剪枝阶段,以删除导致有害内容生成的有害权重。尽管 Antidote 非常简单,但实证结果表明,它可以在保持下游任务准确性的同时降低有害分数。我们的项目页面位于 https://huangtiansheng.github.io/Antidote_gh_page/
摘要 近年来基于深度学习的目标检测框架取得了辉煌的成就。然而,现实生活中的交通标志检测仍然是大多数最先进的目标检测方法面临的巨大挑战。现有的深度学习模型不足以有效地从现实条件下的大图像中提取小交通标志的特征。本文提出了一种基于高效端到端深度网络模型的新型小交通标志检测方法,解决了小交通标志检测难题。所提出的方法将三个关键见解融入已建立的You Only Look Once (YOLOv3) 架构和其他相关算法中,具有速度快、精度高的特点。此外,适当引入网络剪枝以最小化网络冗余和模型大小,同时保持有竞争力的检测精度。此外,还采用了四个尺度预测分支来显著丰富多尺度预测的特征图。在我们的方法中,我们调整损失函数以平衡误差源对总损失的贡献。通过在清华-腾讯100 K交通标志数据集上的实验进一步证明了网络的有效性和鲁棒性。实验结果表明,我们提出的方法比原始的YOLOv3模型取得了更好的准确率,与相关文献中的方案相比,我们提出的方法不仅在检测召回率和准确率上表现出色,而且在检测速度上也获得了1.9 – 2.7倍的提升。
提供对各种机器学习算法的理解以及评估 ML 算法性能的方法 UNIT - I:简介:人工智能问题、代理和环境、代理结构、问题解决代理基本搜索策略:问题空间、无信息搜索(广度优先、深度优先搜索、深度优先与迭代深化)、启发式搜索(爬山法、通用最佳优先、A*)、约束满足(回溯、局部搜索) UNIT - II:高级搜索:构建搜索树、随机搜索、AO* 搜索实现、极小极大搜索、Alpha-Beta 剪枝基本知识表示和推理:命题逻辑、一阶逻辑、前向链接和后向链接、概率推理简介、贝叶斯定理 UNIT - III:机器学习:简介。机器学习系统,学习形式:监督学习和非监督学习,强化学习 – 学习理论 – 学习的可行性 – 数据准备 – 训练与测试和拆分。第四单元:监督学习:回归:线性回归、多元线性回归、多项式回归、逻辑回归、非线性回归、模型评估方法。分类:支持向量机 (SVM)、朴素贝叶斯分类第五单元:无监督学习最近邻模型 – K 均值 – 围绕中心点聚类 – 轮廓 – 层次聚类 – kd 树、聚类树 – 学习有序规则列表 – 学习无序规则。强化学习 – 示例:迷路 – 状态和动作空间