研究。数据集应代表各种用户和不同的上下文,以捕获各种变化。之后,我们需要准备数据并训练模型。训练将重复一百甚至一千次,以找到最合适的模型结构和超参数,这些模型结构和超级参数会导致使用试用和误差或网格搜索的测试集中最低模型误差。由于成千上万的迭代可能导致对测试集的过度拟合,因此必须使用先前看不见的数据评估模型的推广性,以评估所选模型和超参数是否已过拟合到验证集或推广到看不见的数据。深度学习社区在开发模型时通常会使用训练验证测试分解。在训练集和验证集用于迭代模型开发时,测试集用于一次性验证模型。但是,传统的机器学习评估指标(例如,准确性,精度,召回和错误率,以描述模型对看不见的数据的推广程度)并不描述系统的可用性。UCD过程的主要重点是实现高可用性。而不是软件指标,例如推理错误对可用性,模型稳定性和研究系统的有用性等因素。这可能涉及基本问题,例如对给定用例感知的可用性以及影响力的影响程度以及随着时间的推移估计的噪音多么嘈杂。在互动中应用深度学习技术由于系统使用了多种用户,在不同的情况下,验证还需要评估该模型是否可以推广到数据收集研究中使用的任务。虽然先前的工作认为准确性超过80%以至于足够[6],但充分性取决于用例,只能通过用户反馈来评估,例如,该动作的后果是否可恢复以及后果对用户的影响有多大。总而言之,一个深度学习的典型过程描述了开发和评估黑盒模型的迭代性质。但是,深度学习开发过程并未考虑模型的可用性以及最终系统的可用性。
2.1 参与者 ................................................................................................................................ 8 2.2 设备 ................................................................................................................................ 8 2.3 设置 ................................................................................................................................ 9 2.4 实验步骤 ........................................................................................................................ 10 2.5 评估工具 ........................................................................................................................ 12 2.6 因变量和自变量 ...................................................................................................... 13
随着机器学习的进步,自主代理越来越能够驾驭不确定的作战环境,就像多域作战 (MDO) 范式中的情况一样。与人类合作时,自主代理可以根据任务要求和合作伙伴(无论是人类还是代理)采取的行动,灵活地在被动旁观者和主动执行者之间切换。在许多任务中,训练有素的代理的表现可能会超过人类,部分原因是代理的表现不太可能随着时间的推移而下降(例如,由于疲劳)。这种潜在的性能差异可能会导致自满,这是一种由对自动化系统的过度信任定义的状态。本文研究了自满在人机团队中的影响,其中代理和人类在模拟版本的捕食者-猎物追击任务中具有相同的能力。我们使用各种量表比较人类对自满和信任倾向的主观衡量标准,并通过与任务期间采取的行动相关的各种指标量化自满,以验证他们的信念,这些指标与可靠性水平不同的训练有素的代理一起执行任务。通过评估自满对绩效的影响,我们可以将人类在此任务中的表现一定程度上归因于自满。然后,我们可以考虑个人的自满度量,以定制他们的代理队友和人类在环要求(以最小化或 c
通讯作者:David Benrimoh,david.benrimoh@mail.mcgill.ca 致谢:我们要感谢斯坦伯格模拟和互动学习中心的工作人员在协助执行这项研究方面提供的帮助,以及参与研究的标准化病人 (SP) 的卓越表现和反馈质量。遵守道德标准和道德考虑:本研究已获得道格拉斯心理健康大学研究所研究伦理委员会的批准。所有参与者,包括标准化病人,均提供了书面知情同意书。本研究是根据三委员会关于研究伦理的声明进行的。披露:David Benrimoh、Myriam Tanguay-Sela、Kelly Perlman、Sonia Israel、Joseph Mehltretter、Caitrin Armstrong、Robert Fratila、Colleen Rollins 和 Marc Miresco 是 Aifred Health 的股东、员工或董事。Christina Popescu、Eryn Lundrigan、Emily Snook、Marina Wakid、Jérôme Williams、Ghassen Soufi、Tamara Perez 和 Katherine Rosenfeld 是 Aifred Health 支付薪水的研究助理。Sagar Parikh、Jordan Karp 和 Katherine Heller 是 Aifred Health 科学顾问委员会的成员,他们已经或可能在不久的将来获得该公司的股份。Howard Margolese 因参与演讲局、咨询、顾问委员会会议和临床研究而获得 Acadia、Amgen、HLS Therapeutics、Janssen-Ortho、Mylan、Otsuka-Lundbeck、Perdue、Pfizer、Shire 和 SyneuRx International 的酬金、赞助或资助。所有其他作者均未报告相关冲突。资金来源:模拟中心和 SP 的工作是麦吉尔大学和斯坦伯格模拟与互动学习中心举办的临床创新竞赛奖金的一部分,得到了 Hakim 家族的慷慨支持。研究助理、软件和参与者报酬由 Aifred Health 提供。加拿大联邦政府的青年就业计划也提供了一笔资助来支持这项工作。
- 个人存储所有个人书籍,记录,通讯等的设备 - 通过索引,关键字,交叉引用迅速检索的项目,... - 可以用保证金注释,评论,评论... - 可以通过材料构建和保存一条小径(链路) - 充当外部记忆!