开发可以理解和遵循语言指示的代理商对于有效且可靠的人类协作至关重要。最近的方法使用不经常的环境奖励的强化学习来训练这些代理,这给环境设计师带来了重大负担,以创建语言条件条件的奖励功能。随着环境和指示的复杂性,制作这种奖励功能变得越来越不切实际。为了解决这个问题,我们介绍了V-TIFA,这是一种新型方法,该方法通过利用Vision语言模型(VLMS)的反馈来训练跟随剂。V-TIFA的核心思想是查询VLM,根据语言的结构对整个轨迹进行评分,并使用结果评分直接训练代理。与先前的VLM奖励生成方法不同,V-TIFA不需要手动制作的任务规范,使代理商能够从各种自然语言教学中学习。在体现环境中进行的广泛实验表明,在相同条件下,V-TIFA优于现有的奖励生成方法。
视觉语言模型(例如剪辑)对零拍或无标签预测的各种下流任务显示出很大的影响。但是,当涉及到低级视觉时,例如图像恢复其性能会由于输入损坏而急剧下降。在本文中,我们提出了一种退化感知的视觉模型(DA-CLIP),以更好地将预验证的视觉模型转移到低级视觉任务中,作为用于图像恢复的多任务框架。更具体地说,DA-CLIP训练一个额外的控制器,该控制器适应固定的剪辑图像编码器以预测高质量的特征嵌入。通过通过交叉注意将床上用品集成到图像恢复网络中,我们能够试行该模型以学习高保真图像重建。控制器本身还将输出与输入的真实损坏相匹配的降级功能,从而为不同的降解类型产生天然分类器。此外,我们将混合降解数据集与合成字幕结构为DA-CLIP训练。我们的方法在特定于降解和统一的图像恢复任务上提高了最先进的性能,显示出具有大规模预处理视觉模型促使图像恢复的有希望的方向。我们的代码可在https://github.com/algolzw/daclip-uir上找到。
对业务流程进行建模,然后进行模拟,对于运行高效有效的业务至关重要。但是,整个分析过程有时可能非常复杂且耗时。已经提出了一种称为PetribPMN的新方法来简化此过程。该方法介绍了如何自动在形式主义中定义的初始模型的整个过程,将bpmn-light降低到cpn(有色培养皿净)模型。cpns通过合并颜色注释来增强bpmn-light模型,从而实现复杂系统状态和资源分配的表示和仿真。转换过程涉及将BPMN元素映射到CPN构造,同时保留原始模型的语义。这种方法在BPMN的直观视觉表示与CPN的分析能力之间提供了一个桥梁,从而更彻底地了解过程动力学。对现实世界中的案例研究进行了处理,以评估新减少的BPMN-Light形式主义促进的实际可用性和理解速度,该形式使用BPMN规范中使用最小的核心元素来最大程度地减少学习曲线。因此,创建了petribpmn方法的BPMN-Light Converter Web应用程序,以构建,编辑和转换BPMN-Light文件。这使行业中的人们可以轻松自动自动轻松自动地将BPMN-Light图的多个XML文件转换为CPN模型的XML文件。
过去十年见证了农业系统中机器和深度学习(ML&DL)方法的快速发展和采用,并在智能作物管理,智能植物繁殖,智能牲畜养殖,精密水产养殖养殖以及农业机器人等应用方面取得了巨大成功。但是,这些常规的ML/DL模型具有一定的局限性:它们在很大程度上依靠大型,昂贵的标签数据集进行培训,需要专门的专业知识来开发和维护,并且主要是针对特定任务量身定制的,因此缺乏普遍性。最近,大型预训练的模型,也称为基础模型(FMS),在各个领域的语言,愿景和决策任务方面取得了巨大的成功。这些模型对来自多个领域和模式的大量数据进行了培训。一旦受过训练,他们就可以通过仅少量的微调和特定于任务的标签数据来完成多功能任务。尽管它们具有公认的有效性和巨大的潜力,但几乎没有将FMS应用于农业人工智能(AI)的探索。因此,本研究旨在探索FMS在智能农业领域的潜力。特别是,提出了概念工具和技术背景,以促进对问题空间的理解并发现该领域的新研究方向。为此,审查了通用计算机科学(CS)领域的最新FM,并将模型分为四类:语言FMS,Vision FMS,多峰FMS和增强型学习FMS。随后,概述了开发农业FMS(AFM)的过程,并讨论了它们在智能农业中的潜在应用。此外,讨论了与开发AFM相关的独特挑战和风险,包括模型培训,验证和部署。通过这项研究,通过将AFMS作为一种有希望的范式引入农业中的AI进步,可以显着减轻对广泛标记的数据集的依赖,并提高农业AI系统的效率,有效性和概括。为了促进进一步的研究,可以在https://github.com/jiajiali04/agriculture-foundation-models上组织和访问AFMS上的良好分类和积极更新的论文列表。
摘要。本文提出了一种利用预训练的视频扩散模型的新方法,用于构建可扩展的3D生成模型。开发基础3D生成模型的主要障碍是3D数据的可用性有限。与图像,文本或视频不同,3D数据不容易访问且难以获取。与大量其他类型的数据相比,这会导致规模差异显着。为了解决这个问题,我们建议使用视频扩散模型,该模型以大量文本,图像和视频培训,作为3D数据的知识源。通过通过微调解锁其多视图的能力,我们生成了一个大规模的合成多视图数据集,以训练一个馈送前进的3D生成模型。对近3M合成多视图数据进行训练的拟议模型Vfusion3D可以以秒的形式从单个图像中产生3D资产,并且与当前的SOTA Feed-Forward 3D生成模型相比,在90%以上的时间中,用户更喜欢我们的结果。
论文表明,虽然该工具成功证明了自动将BPMN转换为SD模型的可行性,但需要一个更稳定的开发平台来扩展平台的功能。此外,还需要进一步改进以优化自动转换,以方便使用更复杂的模型。该研究不仅为业务流程管理领域BPMN到SD模型的(自动)转换提供了实用的解决方案,而且为未来整合不同建模方法以更深入地理解和优化组织流程的研究奠定了基础。
解决复杂的计划问题需要大型语言模型(LLMS)明确对状态过渡进行建模,以避免规则违规,遵守限制并确保操作性 - 这是由自然语言固有的歧义所阻碍的任务。为了克服这种歧义,规划域定义语言(PDDL)被杠杆化为一种计划,以实现精确和正式的状态描述。使用PDDL,我们可以生成一个象征性的世界模型,其中经典的搜索算法(例如A ∗)可以无缝地找到最佳计划。但是,由于缺乏PDDL培训数据,直接生成具有当前LLM的PDDL域仍然是一个开放的挑战。为了应对这一挑战,我们建议扩大LLMS的测试时间计算以增强其PDDL推理功能,从而使高质量的PDDL域的产生。具体来说,我们引入了一种简单而有效的算法,该算法首先采用了最佳的N采样方法来提高初始解决方案的质量,然后通过口头化的机器学习以细粒度的方式优化解决方案。我们的方法在PDDL域的产生中大大优于O1-Mini,在两个任务上达到了超过50%的成功率(即,从自然语言描述或PDDL问题中生成PDDL域)。这是在不需要额外培训的情况下完成的。通过利用PDDL作为状态抽象,我们的方法能够在几乎所有竞争级的计划任务上都超过当前最新方法。