1植物医疗系,安登国立大学,安东斯36729,大韩民国; smvahsan@gmail.com 2 Applied Biosciences,Kyungpook国立大学,Daegu 41566,大韩民国; inmamumrassel@gmail.com(m.i.-u.-h.); ashim@knu.ac.kr(a.k.d.)3植物与土壤科学系,美国德克萨斯州科技大学基因组学研究所,德克萨斯理工大学,德克萨斯州拉伯克,美国德克萨斯州79409; mrahman@bsmrau.edu.bd 4 4602,杜姆基杜姆基Patuakhali科学技术大学昆虫学系8602; mahiimam@pstu.ac.bd 5 5 Kumho Life Science Laboratory,Chonnam国立大学,Gwangju 61186,大韩民国; ncpaulcnu@gmail.com 6大加工大学大麻生物技术学院,朝鲜共和国安东斯36729 *通信:hwchoi@anu@anu.ac.kr3植物与土壤科学系,美国德克萨斯州科技大学基因组学研究所,德克萨斯理工大学,德克萨斯州拉伯克,美国德克萨斯州79409; mrahman@bsmrau.edu.bd 4 4602,杜姆基杜姆基Patuakhali科学技术大学昆虫学系8602; mahiimam@pstu.ac.bd 5 5 Kumho Life Science Laboratory,Chonnam国立大学,Gwangju 61186,大韩民国; ncpaulcnu@gmail.com 6大加工大学大麻生物技术学院,朝鲜共和国安东斯36729 *通信:hwchoi@anu@anu.ac.kr
我们正在快速经历一个历史时刻:人们在一台计算机前工作,由一台小型 CRT 控制,专注于仅涉及本地信息的任务。联网计算机变得无处不在,在我们的生活中以及科学、商业和社会互动的基础设施中发挥着越来越重要的作用。为了在新千年推动人机交互的发展,我们需要更好地理解新兴的交互动态,其中焦点任务不再局限于桌面,而是延伸到一个复杂的网络信息世界和计算机介导的交互。我们认为分布式认知理论在理解人与技术之间的交互方面发挥着特殊的作用,因为它的重点一直是整个环境:我们在其中真正做什么以及我们如何协调其中的活动。分布式认知为如何思考设计和支持人机交互提供了彻底的重新定位。作为一种理论,它专门用于理解人与技术之间的交互。在本文中,我们提出分布式认知作为人机交互的新基础,勾勒出一个综合的研究框架,并使用我们早期工作中的选集来提出该框架如何为数字工作材料的设计提供新的机会。
自动驾驶汽车的未来在于以人为中心的设计和先进的AI Capabilies。未来的自动驾驶汽车不仅会跨乘客,而且还将互动并适应他们的欲望,从而使旅程变得舒适,有效且令人愉悦。在本文中,我们提出了一个新颖的框架,该框架利用大型语言模型(LLMS)来增强自动驾驶汽车的决策过程。通过整合LLMS的自然语言能力和上下文理解,专业工具使用,协同推理,并与自动驾驶汽车的各种模块进行作用,该框架旨在将LLMS的先进语言和推理能力无缝整合到自动驾驶中。拟议的框架具有革新自动驾驶汽车运行方式,提供个性化援助,持续学习和透明决策的潜力,最终为更安全,更有效的自动驾驶技术做出了贡献。
本文介绍了一种跨性别包容的人工智能立场,即“行动人工智能”(eAI)。人工智能设计是一种体现人类文化和价值观的人类社会文化实践。不具代表性的人工智能设计可能会导致社会边缘化。第 1 节借鉴激进的行动主义,概述了具体文化实践。第 2 节探讨了跨性别如何作为一种社会文化实践与技术科学交织在一起。第 3 节重点介绍了在人工智能中机器人与人类互动的具体情况下颠覆性别规范。最后,第 4 节确定了四个道德载体:可解释性、公平性、透明度和可审计性,以便在开发性别包容的人工智能时采取跨性别包容的立场,并颠覆机器人设计中现有的性别规范。
并行和分布式处理的可用性、合理的成本以及数据源的多样性促进了人工智能(AI)的先进发展。人工智能计算环境的发展并不随着社会、法律和政治环境的变化而变化。在考虑部署人工智能时,部署背景以及针对该特定环境的人类智能增强的最终目标已经成为专业、组织和社会的重要因素。在本研究评论中,我们重点介绍了人工智能系统近期发展的一些重要社会技术方面。我们详细阐述了构成增强智能基础的人机交互的复杂性。我们还强调了与这些互动有关的伦理考虑,并解释了增强智能如何在塑造人类工作的未来方面发挥关键作用。
摘要。人类计算机的交互已从命令行演变为图形,直至有形的用户界面(TUI)。tuis代表了将物理对象纳入数字环境中的新范式,以便为用户提供更丰富,更自然和直观的互动手段。本文回顾了TUIS在认知人体工程学,教育和行业中的应用,并特别强调了TUI在减少认知负荷以及改善保留率和增强解决问题的行为方面可能产生的潜在影响。它涵盖了TUI认知益处的各种案例研究,分布式和体现的认知,可伸缩性和可访问性问题的框架,减少技术障碍以及用户不情愿的方法以及TUI与IoT合并的方式。作者还讨论了TUI如何在智能环境中的网络和控制方面看到巨大的改进。从上述内容中,尽管Tuis承诺与常规GUI有关的巨大好处,但在不同应用程序中的全面利用要求解决成本,适应性和包容性的广泛使用。
过去五年来呈现了一系列全球紧急情况,这对妇女的经济福祉产生了不成比例的影响。朝着增加妇女参与劳动力的进步已经停滞不前,在妇女赋予妇女经济能力的其他方面的进步也减慢甚至逆转。的回应尚未得到充分的保护并保留了近几十年来的性别平等增长,这些趋势在低收入国家中令人震惊,这些国家继续面临诸如高债务水平,缺乏财政空间,外国援助和停滞经济的挑战。
和一个锅的不同)或意图(例如通过刀与使用它进行切割),我们人类可以毫不费力地描绘出与日常生活中日常物体的这种互动。在这项工作中,我们的目标是构建一个可以同样生成合理的手动配置的计算系统。具体来说,我们学习了一个基于扩散的常规模型,该模型捕获了3D相互作用期间手和对象的关节分布。给定一个类别的描述,例如“握着板的手”,我们的生成模型可以合成人手的相对配置和表达(见图1个顶部)。我们解决的一个关键问题是,该模型是什么好的HOI表示。通常通过空间(签名)距离场来描述对象形状,但人的手通常是通过由发音变量控制的参数网格建模的。我们提出了一个均匀的HOI表示,而不是在生成模型中对这些不同的代表进行建模,并表明这允许学习一个共同生成手和对象的3D扩散模型。除了能够合成各种合理的手和物体形状的综合外,我们的扩散模型还可以在跨任务的辅助推理之前作为通用,而这种表示是所需的输出。例如,重建或预测相互作用的问题对于旨在向人类学习的机器人或试图帮助他们的虚拟助手来说是核心重要性。重建的视频重新投影错误)或约束(例如我们考虑了这些行沿着这些行的两个经过深入研究的任务:i)从日常交互剪辑中重建3D手对象形状,ii)鉴于任意对象网格,合成了合理的人类grasps。为了利用学到的生成模型作为推论的先验,我们注意到我们的扩散模型允许在任何手动对象配置给定的(近似)log-likelihood梯度计算(近似)log-likelihoodhoodhood。我们将其纳入优化框架中,该框架结合了先前的基于可能性的指南与特定于任务的目标(例如已知对象网格的合成)推理。虽然理解手动相互作用是一个非常流行的研究领域,但现实世界中的数据集限制了3D中这种相互作用的限制仍然很少。因此,我们汇总了7种不同的现实世界交互数据集,从而导致157个对象类别的相互作用长期收集,并在这些范围内训练共享模型。据我们所知,我们的工作代表了第一个可以共同生成手和对象的生成模型,并且我们表明它允许综合跨类别的各种手动相互作用。此外,我们还经验评估了基于视频的重建和人类掌握合成的任务的先前指导的推断,并发现我们所学的先验可以帮助完成这两个任务,甚至可以改善特定于特定于任务的状态方法。
已经取得了显着的迈进,该领域显然是由于缺乏高质量数据集而导致的。早期数据集(如Pigraphs [39]和Prox [16])启动了探索,但受到可扩展性和数据质量的约束。MOCAP数据集[14,30]使用Vicon等复杂的设备优先考虑高质量的人类运动限制。但是,他们通常缺乏捕获多样化和沉浸式的HSI。通过RGBD视频录制的可扩展数据集提供了更广泛的实用程序,但受到人类姿势和对象跟踪质量较低的阻碍。合成数据集的出现[1,3,4,55]提供了成本效率和适应性,但无法封装完整的现实HSI频谱,尤其是在捕获动态3D触点和对象跟踪时。为了应对这些挑战,这项工作首先引入了trumans(t rack hum a um a u u u u u u u u u u u u u u a ctio n s in s cenes)数据集。Trumans成为最广泛的运动捕获HSI数据集,涵盖了15个小时以上15个小时的室内场景中的各种相互作用。它捕获了全身的人类动作和部分级别的对象动力学,重点是接触的现实主义。通过将物理环境复制到准确的虚拟模型中,可以进一步增强此数据集。外观和运动的广泛增强都应用于人类和物体,以确保相互作用的高度有限。接下来,我们设计了一个计算模型,通过将场景和动作作为条件同时采取行动来应对上述挑战。我们对杜鲁士数据集和运动合成方法进行了全面的交叉评估。特别是,我们的模型采用自回归的条件扩散,场景和动作嵌入作为征用输入,能够产生任意长度的运动。为了整合场景上下文,我们通过在本地化的基础上查询全局场景的占用来开发有效的场景感知者,这在导航杂乱的场景时表现出了3D感知的碰撞避免的强大效率。为了将框架的动作标签合并为条件,我们将时间特征集成到动作片段中,使模型在粘附在给定的动作标签时随时接受指令。场景和动作条件的这种双重整合增强了我们方法的可控性,为在3D场景中合成合理的长期运动提供了细微的界面。将trumans与现有人物进行比较,我们证明了杜鲁士人明显提高了最先进的方法的性能。此外,我们的方法在定性和定量上进行了评估,超过了现有的运动综合方法,其质量和零击性能力在看不见的3D场景上,非常接近原始运动捕获数据的质量。除了运动合成之外,杜鲁士人已经针对人类的姿势和接触估计任务进行了基准测试,证明了其多功能性并将其确立为一系列未来的研究努力的宝贵资产。
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。