生成的AI正在彻底改变游戏设计领域,并在游戏玩法中引入了前所未有的适应性和个性化。AI驱动引擎的最新进步可实现实时内容创建,提供了动态的,以玩家为导向的体验,与传统的预编程叙述不同。此班次标志着向“选择自己的冒险”格式的过渡,其级别,敌人,收藏品和武器的数量无限数量,该级别是针对每个玩家的决定量身定制的。Google的Gamengen展示了AI重新创建经典游戏,例如实时学习和生成游戏玩法的能力。这些创新并不仅限于游戏。它们扩展到了娱乐,电视和电影,诸如Cybever之类的AI工具允许创作者从诸如草图之类的简单输入中产生3D世界。这样的发展强调了AI在塑造交互式媒体中的作用的更广泛趋势,为个性化学习和娱乐体验提供了新的机会。诸如笔记本LM之类的工具的出现也模糊了游戏与其他媒体之间的界限,从而创建了AI编写的脚本和化身,从而增强了跨平台的讲故事。本文探讨了生成AI的变革潜力,强调了对娱乐,游戏及其他地区的未来的影响。
摘要:我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个动作条件的场景图(ACSG),该图形图(ACSG)捕获了基础环境的结构。ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们提出了机器人探索(RoboExp)系统,该系统结合了大型多模型(LMM)和明确的内存设计,以增强我们的系统功能。机器人的原因以及如何探索对象,通过交互过程累积新信息,并逐步构建ACSG。利用构造的ACSG,我们说明了机器人系统系统在促进涉及涉及刚性,清晰的对象,嵌套对象和可变形对象的各种真实的操纵任务方面的有效性和效率。项目页面:https://jianghanxiao.github.io/roboexp-web/
随着环境智能(AMI)的愿景变得更加可行,在这种情况下,设计有效和可用的人机相互作用的挑战变得越来越重要。交互式机器学习(IML)提供了一组技术和工具,以使最终用户参与机器学习过程,从而有可能构建更值得信赖和适应性的环境系统。在本文中,我们的重点是探索APS,以有效整合和协助基于ML的AMI系统中的人类用户。通过对关键IML相关贡献的调查,我们确定了在AMI应用中设计有效的人类相互作用的原则。我们将它们应用于开权构成的情况,这是实现AMI的一种方法,以增强人类与人工智能之间的协作。我们的研究强调了对以用户为中心和上下文感知的设计的需求,并提供了将IML技术集成到AMI系统的挑战和机遇的见解。
您想推荐产品吗?建议接受季节性补救措施?提供有趣的条件?与建议的产品和产品交互时,所有这些都是可能的。黑色星期五?现在,您可以设置每个人一直在等待的折扣率。也可以使用用户识别的自定义凸轮paign
摘要 - 我们开发一个混合现实平台,以可视化人脑的某些解剖结构和功能区域,并交互作用地计算大脑动脉中的血液流动,特别关注动脉瘤的影响。几何细节和大脑动脉从MRI图像中进行了分割,并且大脑的功能区域被功能性大脑图块鉴定和映射。该平台由带有相机的全息设备组成,以捕获物理对象,并从用户手势以在数字对象上操作,以及基于GPU的平台管理器,以融合全息图设备和计算系统的数据。该平台的另一个主要组成部分是连接到平台管理器的平行计算机,用于使用高度可扩展的域分解算法对大脑流的血液动力学的接近实时计算。这样的平台可能在大脑科学中有许多应用,在本文中,我们专注于它在数字大脑的可视化中的应用,包括某些功能区域的面积,体积和厚度,破裂的风险评估以及对脑动脉瘤的外科手术计划。索引项 - 混合现实可视化,人脑,功能图集,血流动力学,不稳定的不可压缩的Navier-Stokes方程,交互式平行计算
图 1. 交互的基本模型。A:在与传统的非 AI 系统交互时,用户选择要执行的操作并向系统提供输入以执行该操作 (1)。系统执行操作 (2),然后将输出提供给用户,用户根据自己的目标评估输出 (3)。B:在与 AI 交互时,用户将他们期望的结果传达给 AI (1),AI 解释目标并执行操作以实现该目标 (2),然后 (3) 将输出发送给用户。C:相同的人机交互周期,AI 对齐概念映射到三个步骤上:(1) 规范对齐机制为用户提供了对齐 AI 以执行特定任务的方法。(2) 流程对齐机制使用户能够修改任务的执行方式,从而可能为用户提供对特定步骤的直接控制。(3) 评估对齐机制帮助用户评估和理解输出。
我们考虑通过文本指导将几何细节添加到3D对象网格的问题。文本到3D生成建模已成功应用于计算机视觉[Poole等。2023;张等。2024],计算机图形[Khalid等。2022]和地理处理[Gao等。2023; Xu等。2024]应用。这些方法着重于直接从文本中生成3D网格[Poole等。2023; Wang等。2023]没有为用户提供控制输出形状粗糙结构的能力,从而限制了需要仔细控制生成过程的艺术家的实际实用性。其他方法着重于生成3D网格的纹理[Cao等。2023;理查森等。2023],但它们在几何形状上没有执行任何变化。虽然有一些方法[Gao等。2023; Metzer等。2023]向用户提供控制并能够修改给定形状的几何形状,这些方法通常很慢,因为它们依赖于昂贵的得分蒸馏采样[Poole等。2023]。在本文中,我们提出了一种创建3D对象与丰富几何细节的方法,同时允许用户保留对全局形状结构(通过输入粗网格)和本地几何细节(通过输入文本提示)的控制。随着文本引导的生成方法的最新成功[Metzer等。2023; Poole等。2023;理查森等。2023; Wang等。2024;张等。2023],我们在大型预训练的文本对图模型上构建了我们的方法[Rombach等。2022]并使用语言指导几何细节的生成。我们的公式不需要配对的粗几何图和细几何训练数据,而是使用大型预训练的文本对图像模型作为监督,以指导通过可区分的渲染器添加几何细节的过程。我们的主要见解源于以下事实:训练以深度信息指导的文本对图像生成的模型[Mou等。2023]最终创建包含其他几何提示的图像。如图2所示,这些提示是如此突出,即使是现成的正常估计模型也可以提取它们。即,即使小鼠图像仅从三个球体产生,其正常估计(最右图像)显示了与描绘眼睛,鼻子和耳朵的表面相对应的正态。但是,此过程只能从单个角度创建可见的细节,而我们希望将细节添加到给定形状的整个可见表面。我们的方法在三个阶段中将几何详细信息添加到输入网格中。第一阶段基于输入文本提示和输入粗网格生成单视RGB图像。此RGB图像可以看作是如何将其添加到输入网格的几何详细信息的预览。第二阶段根据第一阶段和输入粗网格的单视输出进行多视图生成。第三阶段根据第二阶段的多视图生成来完善输入网格的几何细节。由于每个阶段的输出是非提交的,人类可理解的图像或效果图,因此此属性允许在完成之前的早期瞬间,以便用户决定更改参数或返回并更改/修改输入。此外,前两个阶段仅涉及运行预训练网络的推断,最后阶段直接在网格上运行。每个阶段都可以在几秒钟内完成,因此允许我们的方法用于支持
文本到语音(TTS)模型的评估目前由均值开放得分(MOS)听力测试所统治,但MOS的有效性越来越受到质疑。mos测试将听众置于被动设置中,其中他们不会与TTS积极互动,通常会评估孤立的话语而没有上下文。因此,它没有表明TTS模型适合诸如口语对话系统之类的交互应用程序的迹象,在对话中,在对话环境中生成适当语音的能力至关重要。我们旨在通过评估几种最先进的神经TTS模型来解决这一缺点的第一步,其中包括一种在定制的口语对话系统中适应对话环境的模型。我们提出系统设计,实验设置和结果。我们的工作是第一个在上下文对话系统交互中评估TTS的工作。我们还讨论了拟议的评估范式的缺点和未来企业。索引术语:文本到语音,口语对话系统,评估方法,人类计算机互动
摘要 - 传统上,音乐教育依赖于理论教学和乐谱。但是,集成实时音频分析和交互式学习工具引入了学生如何掌握音乐基础知识的范式转变。本文介绍了一个基于Web的交互式平台和用于教学印度古典音乐(ICM)基础知识的实时音频分析系统。该平台结合了一系列实验,每个实验旨在增强对音乐元素的理解,从简单的音乐音符到复杂的旋律。音频分析还使用DSP套件TMS320C6713实时进行。本文提供了简洁的概述,强调了这些信号处理技术在音乐教育中的重要性及其在革新互动音乐学习中的潜力。学生可以实验,构成和可视化音乐元素,促进创造力并更深入地欣赏音乐的细微差别。实时反馈可以增强学习经验,从而立即进行更正和改进。索引术语 - 印度古典音乐,TMS320,信号程序,互动学习,音乐教育