自动化工厂、核电站、电信中心和空间站等设施的计算机控制操作环境正变得越来越复杂。随着这种复杂性的增长,使用集中管理和调度策略来控制此类环境将变得越来越困难,这些策略既能应对意外事件,又能灵活应对可能随时间发生的操作和环境变化。解决这个问题的一个越来越有吸引力的方法是将此类操作的控制权分配给许多智能的、完成任务的计算代理。现实世界领域可能由多个代理填充。在这样的领域中,代理通常会执行许多复杂的任务,需要在一定程度上关注环境变化、时间约束、计算资源界限以及代理的短期行动可能对其长期目标产生的影响。在现实世界中运作意味着必须在时间和空间的多个粒度级别上处理意外事件。虽然代理必须保持反应能力才能生存,但如果代理要与其他代理协调其行动并以有效的方式处理复杂任务,则需要一定程度的战略和预测决策。本论文提出了一种新的集成代理架构,旨在为理性、自主、移动的代理提供在动态、实时、多代理领域中执行复杂、资源受限任务通常所需的各种行为。在调查了一系列现有架构并充分考虑了在特定领域中产生有效、稳健和灵活行为的要求后,通过集成许多审议和非审议控制功能,设计了最终的软件控制架构——TouringMachine 代理架构。这些功能以分层方式排列,组合起来赋予代理丰富的反应、目标导向、反思和预测能力。认识到代理的内部配置、任务环境和随后的行为库之间存在的复杂关系,代理架构已与功能丰富的仪器化模拟测试平台结合实施。该测试平台允许创建多种单智能体和多智能体导航任务场景,已用于评估架构的实用性并确定其一些主要优点和缺点。
摘要 本研究调查了人工智能 (AI) 教练在小学第二语言 (L2) 学习中的应用,涉及 327 名参与者。根据探究社区,学习者在与被视为人性化的代理的 AI 教练互动时,预计会感知到社交、认知和教学的存在。为了检验学习者感知到的 AI 存在与他们的语言学习之间的关系,本研究利用了 AI 使用数据、实际学习成果和态度数据。分层回归分析的结果表明,认知存在和学习者对 AI 外观的喜爱是 L2 享受度的重要预测因素,这也对学习成果产生了积极的预测作用。英语跟踪分数(代表 AI 使用的质量)对学习成果产生了积极的预测作用。与直觉相反,教学存在被发现对学习成果产生负向影响。根据聚类分析和随后的 MANOVA 结果,本研究表明,通过与人工智能互动,学习者感知到更高的社交和认知存在感,并对人工智能的外观表现出更大的喜爱,他们倾向于更频繁地使用人工智能教练,表现出更高的 L2 享受度,并取得更高的学习成果。本研究有助于丰富教育环境中人机互动的有限但不断增长的知识,并对未来使用人工智能进行 L2 学习的努力具有重要意义。
基于代理的建模 ( ABM ) 是一种新颖的计算方法,用于表示个人行为以研究社会现象。它在许多领域的应用正在迅速增长。我们回顾了经济学和金融学中的 ABM,并强调了如何使用它来放宽标准经济模型中的传统假设。在经济学中,ABM 丰富了我们对市场、产业组织、劳动力、宏观、发展、环境和资源经济学以及政策的理解。在金融市场中,重大成就包括了解集群波动、市场影响、系统性风险和住房市场。我们提出了未来如何使用 ABM 来构建更现实的经济模型的愿景,并回顾了实现这一目标必须克服的一些障碍。
许多研究表明,人类具有“可预测的非理性”特征:他们不会以完全理性的方式行事,但他们偏离理性行为的行为却相当系统化。我们的目标是看看我们能在多大程度上解释和证明这些偏差是理性但资源有限的代理在考虑到其局限性的情况下尽力而为的结果。我们重点研究了护林员-偷猎者游戏,其中护林员试图保护一些地点免遭偷猎。我们通过将偷猎者和护林员建模为概率有限自动机 (PFA) 来捕捉计算限制。我们表明,有了足够大的内存,PFA 可以学会玩博弈中的纳什均衡 (NE) 策略并获得 NE 效用。然而,如果我们限制记忆,我们就会得到更多“类似人类”的行为,例如概率匹配(即访问与犀牛出现的概率成比例的站点),以及避开结果不好的站点(例如,偷猎者被护林员抓获),我们在 Amazon Mechanical Turk 上进行的实验中也观察到了这些行为。有趣的是,我们发现添加概率匹配和增加重要事件(如被抓获)等类似人类的行为实际上可以提高性能,表明这种看似不合理的行为可能非常合理。
可以自主驱动应用程序用户界面完成用户任务的自动化系统非常有益,尤其是当用户在情境或永久性受损时。先前的自动化系统不会产生可概括的模型,而基于AI的自动化代理仅在模拟,手工制作的应用程序或累积高计算成本方面可靠地工作。我们提出了UINAV,这是一种基于示范的培训自动化代理的方法,可填充移动设备,但可以实现高成功率,并以适度的示威数量。为了减少示范开销,Uinav使用了裁判模型,该模型会立即对用户进行立即反馈代理失败的任务,并自动培养人类的示范来增加培训数据中的分歧。我们的评估表明,只有10个示威活动可以达到70%的精度,并且通过足够的演示,它可以超过90%的精度。
情境化具身智能体如何利用知识实现目标是自然和人工智能的经典问题。生物体如何利用其神经系统实现这一目标是具身认知神经理论面临的核心挑战。为了构建这一挑战,我们借用了塞尔对意向性的分析中的术语,即其两个契合方向和六种心理模式(感知、记忆、信念、行动中的意图、先前意图、愿望)。我们假设意向状态由神经激活模式实例化,而神经激活模式由神经交互稳定。动态不稳定性为启动和终止意向状态提供了神经机制,对于组织意向状态序列至关重要。概念节点网络所表示的信念是自主学习的,并根据期望的结果被激活。意向智能体的神经动力学原理在一个玩具场景中得到演示,其中机器人智能体探索环境并根据学习到的颜色变换规则将物体涂成所需的颜色。
大语言模型(LLM)在需要复杂推理的自然语言任务中表现出了显着的功能,但是它们在交互式环境中的代理,多步骤推理中的应用仍然是一个艰难的挑战。静态数据集上的传统监督预训练在实现在Web Navigation(例如Web Navigation)中执行复杂决策所需的自主代理能力时跌落。先前试图通过对精选的专家演示进行微调的微调来弥合这一差距 - 通常会遭受更复杂的错误和有限的勘探数据,从而导致了次优政策的结果。为了克服这些挑战,我们提出了一个框架,将带有指导的蒙特卡洛树搜索(MCTS)搜索与自我批评机制和使用直接优先优化(DPO)算法的非政策变体对代理相互作用进行迭代微调。我们的方法使LLM代理可以从成功和失败的轨迹中有效学习,从而改善其在复杂的多步推理任务中的概括。我们在网络商店环境(一个模拟的电子商务平台)中验证了我们的方法,在该平台上,它始终超过行为的克隆和加强基线,并在配备了进行在线搜索的能力时击败平均人类绩效。在实际预订方案中,我们的方法论将Llama-3 70B型号的零拍摄性能从18.6%升至81.7%的成功率(相对增长340%),经过一天的数据收集,并在线搜索中进一步增加到95.4%。我们认为,这代表了自主代理人能力的实质性飞跃,为在现实世界中更复杂和可靠的决策铺平了道路。
AMIRIS 是一种基于代理的模型 (ABM),用于模拟电力市场。这种自下而上的模型的重点是能源系统中参与者的业务导向决策。这些参与者在模型中表示为原型代理,每个代理都有自己复杂的决策策略。除其他外,竞价决策基于对电力市场价格和发电预测的评估(Nitsch、Deissenroth-Uhrig 等人,2021 年),并且可以对在不同时间尺度上做出决定的不同参与者进行建模。特别是,代理的行为不仅反映了边际价格,还可以考虑支持工具的影响,例如市场溢价、不确定性和有限信息或市场力量(Frey 等人,2020 年)。这可以评估哪种政策或市场设计最适合经济有效的能源系统(Torralba-Díaz 等人,2020 年)。模拟会生成有关发电厂调度和灵活性选项、特定于技术的市场价值、系统成本的发展或二氧化碳排放的结果。该模型的一个重要输出是模拟市场价格(Deissenroth 等人,2017 年)。
运行系统 定义 t t 设置时间 t = 1(小时) 定义 t t t 计算 t t = ∑ t t t,j=1,..,n;k=1,..,3 使用公式 (1) 估计每个分销商 t t 提供的 t t t,l=1,..,a;k=1,..,3 计算 t t = ∑ t t t t,s=1,..,S; k=1,..,3 更新总产量φ ௧ 和能源盈余φ ௧ ,do 对于能源盈余do,如果φ ௧ ≥ φ ௧ 则设置∑φ ௧ = φ ௧ ;设置 H = 0 并更新 H = H – H 计算 H = H + H – H 对于能量充电策略,选择能量水平最低的 H 并对其进行充电,直到达到与 H 相同的充电水平;如果两个存储设备的级别相同,则执行随机选择进行充电 按级别充电 വ० = വ० + ௧ ELSEIF വ० 达到最大值然后寻找 k+1 区域,执行 വ० ାଵ = വ० ାଵ + ௧ END IF ELSE 对于能量短缺,计算 ય௧ = ય௧ + ( ।௧ - ඤ௧ ) 对于能量放电策略执行,如果 F1 > 0,则从最大的 F2 能量级更新 F2 = F3 – F4 中检索能量 执行直到 F3 = 0 F4 = F4 否则,搜索其他 k+1 个 F1 > 0 的区域并执行 F4 ; k≠k 使用方程 3 更新 F മ F ାଵ = F മ F ାଵ – F F 执行直到 F ൮ F ௧ = 0 F দ F ௧ = F ௧ ELSE F দ F ௧ = F ථ F END END END
摘要本文研究了基于音频的环境感知。该受试者可能会使车辆自动化受益,该自动化近年来引起了显着的兴趣。该技术允许对象在没有人类的情况下几乎或不完全移动。车辆自动化已用于自动驾驶,无人机以及许多家庭和工业机器人。通常,自主迁移率需要监视周围环境。监视使用传感器,例如雷达,相机,激光雷达和声纳,收集可见环境的信息以及障碍物的距离。但是,很少关注监测声学环境。通过使用诸如Unity之类的游戏引擎,可以通过虚拟环境在计算机上方便地研究该问题。可以根据声源的感知位置进行培训的代理商在环境中导航。通过机器学习方法启用了培训,例如深钢筋学习(DRL)。本论文评估了利用统一性在复杂环境中进行导航的智能音频感知者的智能音频感知者的可行性,并专门评估音频输入的培训。目的是通过使用音频来源构建虚拟环境,高级声音空间化和隔离统一的直接声音,以及在环境中具有声音源定位(SSL)功能的智能代理来实现的。空间化允许对环境中的自然声音传播进行建模,以使声音似乎从正确的位置到达。ssl,在工作中使用DRL实现,使代理可以推断出声音到达的方向。结果表明,在平均论文的平均工作量中,可以使用随便可用的插件来构建学习环境和统一训练团结的培训。此外,只要利用先进的声音空间化,就可以成功地对音频输入进行培训。