随着变压器和视觉模型(VLM)的出现,例如剪辑,微调大型预培训模型最近已成为持续学习的普遍策略。这导致发展了许多促使策略以适应基于变形金刚的模型而不会引起灾难性遗忘。但是,这些策略通常会损害预先训练的剪辑模型的原始零射击功能,并难以适应明显偏离预训练数据的域。在这项工作中,我们提出了持续的生成培训,以进行增量及时学习,这是一种简单而新颖的方法,可以减轻遗忘,同时调整剪辑。简而言之,我们采用各种自动编码器(VAE)来学习视觉编码器嵌入空间内的类调节分布。然后,我们利用这些分布来采样新的合成视觉嵌入式,并在随后的任务中训练相应的特定类文本提示。通过对不同领域的广泛实验,我们表明,这种生成的重播方法可以适应新任务,同时改善了零发功能,并使用针对CL方案量身定制的新型度量标准进行了评估。值得注意的是,进一步的分析表明,我们的方法可以通过关节及时调整弥合差距。该代码库可从https://github.com/ aimagelab/mammoth获得。
SAT问题询问是否存在命题逻辑中给定公式的令人满意的真理分配。sat非常棘手[10],但是现代的SAT求解器,尤其是冲突驱动的子句学习(CDCL)求解器,在从各种应用程序中求解大型公式方面取得了重大进展。在组合问题方面,随机局部搜索(SLS)求解器通常比CDCL更有效。由于SLS和CDCL求解器具有互补的优势,因此一些SAT求解器,例如Kissat [7]和Cryptomin- iSat [16]组合SLS和CDCL技术,SLS方法在塑造现代SAT求解器的能力方面起着关键作用。sls求解器通过翻转单个变量的真实价值直到找到解决方案或超时为止。求解器通常会尝试翻转变量,以最大程度地减少伪造的从句的数量。求解器确定没有可变翻转会根据某些启发式或度量标准导致改进时,它已达到局部最低限度。为了逃避局部最小值,求解器可以进行随机翻转或调整其内部状态,直到改善为止。尽管是逃脱本地最小的算法的有效算法,但动态搜索(DLS)吸引了
人类行动质量评估(AQA)旨在自动评估人类执行的行动的表现,是人类行动分析的一个新兴领域。尽管已经为人类行动分析领域(例如行动识别和行动预测)进行了许多评论文章,但缺乏与AQA相关的最新和系统评价。本文旨在提供有关基于视觉的人类AQA的现有论文的系统文献综述。这项系统的审查是按照Scopus,IEEE Xplore和Web of Science的数据库进行严格进行的,于2024年7月。96个研究文章进行最终分析。本评论概述了AQA的各个方面,包括现有应用程序,数据采集方法,公共数据集,最新方法和评估指标。我们观察到自2019年以来的AQA研究数量增加,这主要是由于深度学习方法和运动捕获设备的出现。我们根据所使用的数据模式将这些AQA方法分类为基于骨架和基于视频的方法。各种AQA任务的评估指标不同。src是最常用的评估度量标准,在96个选定的论文中,有56个使用它来评估其模型。体育赛事评分,手术技能评估和康复评估是根据现有论文在这个方向上最受欢迎的三种情况,并且正在探索更多新的情况,例如钢琴技能评估。此外,还提供了现有的挑战和未来的研究方向,这可能是研究人员探索AQA的有用指南。
摘要最近,使用深度学习和低计算的边缘设备用于分析基于视频的系统,尤其是在智能运输系统(ITS)的领域中,大幅增加了。在其开发低计算和准确的车辆计数系统中,计算机视觉技术的一种有希望的应用是可以用来消除对外部云计算资源的依赖性的。本文提出了一种紧凑,可靠和实时的车辆计数解决方案,该解决方案可以在低计算需求边缘计算设备上部署。该系统使用自定义的车辆检测算法,基于您仅查看一次版本8 nano(Yolov8n),并结合了深层关联度量标准(DeepSort)对象跟踪算法和有效的车辆计数方法,可在高速公路场景中准确计数车辆的准确计数。该系统经过训练,可以检测,跟踪和计算四个不同的车辆类别,即:汽车,摩托车,公共汽车和卡车。所提出的系统能够达到平均车辆检测平均平均精度(MAP)分数为97.5%,车辆计数精度得分为96.8%,平均速度为每秒19.4帧的平均速度(FPS),同时均被部署在紧凑型NVIDIA NVIDIA JETSON JETSON NANO NANO EDGE计算设备上。就准确性和速度而言,所提出的系统优于其他先前提出的工具。©(2024),(艾哈迈德·达兰大学)。保留所有权利。
要将神经序列模型(例如变形金刚)应用于音乐发电任务,必须通过一系列有限的代币来代表一段音乐。这样的词汇通常涉及各种类型的令牌。例如,要描述音符,一个人需要单独的令牌来指示音符的音高,持续时间,速度(动态)和放置时间(起始时间)。虽然不同类型的令牌可能具有不同的适当性,但现有模型通常以与自然语言建模单词相同的方式对待它们。在本文中,我们提出了一种概念上不同的方法,该方法明确考虑了令牌的类型,例如注释类型和度量标准类型。,我们提出了一种新的变压器解码器 - 使用不同的馈送头来建模不同类型的kens。通过扩展压缩技巧,我们通过对相邻令牌进行分组,大大降低了令牌序列的长度,从而将一段音乐转换为一系列复合单词。我们表明,在动态有向超图中,可以将结果模型视为学习者。,我们采用它来学会创作全面的长度长度(每首歌曲最多涉及10k个个人to-kens)的表现力的流行钢琴音乐,无论是有条件地和无条件的)。我们的实验表明,与最先进的模型相比,所提出的模型在训练时收敛了5至10倍(即,在一天的GPU上,在具有11 GB内存的单个GPU上),并且在生成的音乐中具有可比的质量。
将非线性数据建模为Riemannian歧管上的对称阳性定义(SPD)矩阵,引起了对各种分类任务的广泛关注。在深度学习的背景下,基于SPD矩阵的Riemannian网络已被证明是对电子脑电图(EEG)信号进行分类的有前途的解决方案,可在其结构化的2D特征表示中捕获Riemannian几何形状。但是,现有方法通常在嵌入空间中学习所有可用的脑电图中的空间结构,其优化程序依赖于计算 - 昂贵的迭代。此外,这些十种方法努力将所有类型的关系船编码为单个距离度量标准,从而导致一般性丧失。为了解决上述局限性,我们提出了一种riemannian嵌入银行方法,该方法将整个填充空间中常见的空间模式学习的概率分为k个缩写,并为每个子问题构建一个模型,与SPD Neural Net-net Works结合使用。通过利用Riemannian歧管上的“独立学习”技术的概念,Reb将数据和嵌入空间划分为k非重叠子集中,并在Riemannian ge-be-emetric Space中学习K单独的距离指标,而不是向量空间。然后,在SPD神经网络的嵌入层中,学习的K非重叠子集分为神经元。公共脑电图数据集的实验结果证明了尽管非平稳性质,但提出的脑电图信号的常见空间模式的拟议方法的优越性,在维持概括的同时提高了收敛速度。
摘要。计算机视觉和机器学习中的最新技术成就为工业质量控制提供了有希望的解决方案。由于自动解决方案很难在制造过程中集成,因此电池组装过程中的一种常见做法涉及对电池零件的手动调查,该电池零件既效率低下又耗时。我们将重点放在装配线中的一个具有挑战性的生产阶段,该阶段在人类检查不可行的情况下,只能在生产的后期才能检查出来的缺陷。为此,我们提出了一个原位系统,该系统通过在当前生产阶段准确识别异常来自动化质量控制过程并形成缺陷诊断。实施的系统旨在通过使用深神经网络(DNN)来监视电池组装线中的生产线并可视化电池组件中的有缺陷,并检查使用机器视觉系统收集的真实生产样品的缺陷。为了确定特定任务的光学配置,我们对各种最新的(SOTA)DNN体系结构进行了交叉评估,专门研究对象检测。此外,我们探索了复制 - 粘贴数据增强机制,以从少数有缺陷的样本中生成其他培训数据。最初使用平均平均精度(MAP)作为绩效评估的度量标准,对工业试验样本中缺陷的定位进行了验证,然后使用F-SCORE,PROCISION和RESEMES验证了有缺陷和非缺陷样本的分类作为评估指标。
神经网络在学习和控制方面表现出了巨大的力量,尤其是在学习动力学和预测动态系统的行为方面[1],[2]。在学习和控制社区近似动态行为时,尤其是稳定性和被动性时,就会有利于稳定性和被动性。执行稳定性可以使学习模型受益,尤其是在概括方面。对于非线性系统,在[3],[4],[5]中使用高斯混合模型和多个数字模型研究了学习过程中的稳定性,甚至在线性系统的情况下,它是非平凡的[6]。对于非线性系统,存在各种稳定概念,其影响不同。在学习的背景下,一个称为Contaction [7](任何一对轨迹相互收敛)的强稳定性概念最近由于其平衡 - 独立的稳定性性质而受到了很多关注。对于离散时间设置,[8],[9],[10]已经开发了收缩,逐渐被动和耗散性神经动力学。在[11]中可以找到连续的时间对应物。[9],[11]的好处是他们的直接(即稳定模型的参数化参数化,使培训变得容易。但是,一个限制是它们在国家独立的二次度量标准方面执行收缩,从而限制了灵活性。用于学习稳定性弱的动态系统(例如,Lyapunov稳定性W.R.T.特定的平衡)通常需要应用保留相似稳定性特性的模型。稳定神经差异方程的关键成分是神经Lyapunov功能。从[12]和佩雷尔曼(Perelman)[13]的庞加罗猜想分辨率,所有lyapunov函数均具有对单位球的同型集合。这建议搜索候选Lyapunov
摘要 - 作为银行体系的核心业务是借入货币,然后将其取回,贷款违约是商业银行最关键的问题之一。随着数据分析和人工智能,从历史数据中提取有价值的信息,以降低其损失,银行将能够对客户进行分类并预测信贷还款的可能性,而不是依靠传统方法。由于大多数实际的研究都集中在个人的贷款上,因此本文的新颖性是处理公司贷款。其主要目标是提出一个模型,使用选定的机器学习算法解决问题,以将公司分为两个类,以便能够预测贷款违约者。本文深入研究公司贷款默认预测模型(CLD PM),该模型旨在预测公司中的贷款违约。该模型以CRIRP-DM流程为基础,从理解公司要求并实施分类技术开始。数据采集和制备阶段对于测试所选算法至关重要,该算法涉及逻辑回归,决策树,支持向量机,随机森林,XGBoost和Adaboost。使用各种指标,即准确性,精度,召回,F1分数和AUC评估该模型的功效。随后,使用摩洛哥房地产公司的实际贷款数据集对该模型进行审查。调查结果表明,随机森林和XGBoost算法的表现优于其他算法,每个度量标准都超过90%。这是通过将SMOTE作为一种过采样方法来完成的,鉴于数据集的不平衡。此外,当专注于财务报表时,选择了五个最重要的财务比率和该公司的年龄,随机森林擅长预测结果良好的违约者:准确性为90%,精度为75%,召回50%,F1得分为60%,AUC为77%。
抽象机器翻译在桥接语言障碍中起着至关重要的作用,但是产生适当的翻译仍然是一个挑战。增强学习技术与变压器模型的集成,以增强上下文相关翻译的产生。通过合并上下文策略梯度方法,一种考虑流利性和上下文的奖励功能,多代理强化学习,课程学习和交互式用户反馈,旨在提高机器翻译的质量。强化学习技术与变压器模型的集成提供了几种关键贡献。它使模型能够通过考虑源句子上下文,目标语言细节和用户偏好来优化翻译决策。拟议的奖励功能设计既包含传统的度量标准得分,又结合了上下文感知的指标,以促进流利性和连贯性。多代理强化学习增强了专门从事不同翻译方面的代理之间的协作。课程学习和用户反馈的互动学习有助于有效的培训和人为指导的微调。实验结果表明,与基线模型相比,翻译质量的显着改善。所提出的方法在评估指标(例如BLEU,流星,胭脂和TER)中获得了更好的分数。此外,定性分析强调了该模型在产生流利,准确和上下文相关的翻译方面的优势。总体而言,增强学习技术与变压器模型的集成在增强机器翻译系统方面有希望,使其更适应能力,以用户为中心,并且能够产生适当的上下文翻译。关键字1机器翻译,增强学习,变压器,交互式学习。
