摘要 智能代理必须能够传达意图并解释其决策过程,以建立信任、培养信心并改善人机团队动态。认识到这一需求,学术界和工业界正在迅速提出新的想法、方法和框架,以帮助设计更可解释的人工智能。然而,仍然没有标准化的指标或实验协议来对新方法进行基准测试,研究人员只能依靠自己的直觉或临时方法来评估新概念。在这项工作中,我们提出了第一个全面的(n=286)用户研究,测试了可解释机器学习的广泛方法,包括特征重要性、概率分数、决策树、反事实推理、自然语言解释和基于案例的推理,以及没有解释的基线条件。我们提供了可解释性对人机团队影响的第一个大规模实证证据。我们的研究结果将通过强调反事实解释的好处和可解释性置信度得分的缺点,帮助指导可解释性研究的未来。我们还提出了一种新颖的问卷,用于衡量人类参与者的可解释性,该问卷受到相关先前工作的启发,并与人机协作指标相关联。
摘要:我们严格审查了系统与其环境片段之间建立的相关性在表征随后的动态方面所起的作用。我们采用了具有不同初始条件的去相位模型,其中初始环境的状态代表可调节的自由度,该自由度在定性和定量上影响相关性曲线,但仍然会导致系统的动态降低。我们应用最近开发的表征非马尔可夫性的工具来仔细评估相关性(由(量子)詹森-香农散度和相对熵量化)以及环境状态的变化在量子达尔文主义范式中的经典客观性条件是否得到满足方面所起的作用。我们证明,对于来自不同微观模型的完全相同的非马尔可夫系统简化动力学,一些表现出量子达尔文主义特征,而另一些则表明不存在任何有意义的经典客观性概念。此外,我们的研究结果强调,环境的非马尔可夫性质并不会先验地阻止系统冗余地增殖相关信息,而是系统建立必要相关性的能力才是体现经典客观性的关键因素。
最佳。它缺乏标准化,并且基于一两个放射科医生对肿瘤状态的整体印象。因此,它不适用于治疗试验或重现其他研究人员的结果。然而,我们的结果表明,非常需要对神经内分泌肿瘤反应变化更敏感的放射学反应评估系统。随着当今放射学程序的高分辨率,人们可以争辩说,用于对 RECIST 中不同总体反应组进行分类的阈值可以重新定义。例如,目标病变直径总和增加 5% 而不是 20% 可以定义进行性疾病。肿瘤密度降低作为影响
从针织涂鸦到游击钩编——针织工艺以前几代人完全无法预见的方式蓬勃发展。我们的祖母们无疑会赞成二十多岁的年轻人编织类似茶壶保温套的东西(她们过去用它来盖住茶壶),即使它大到足以给伦敦电话亭保温!这件原创针织品是由 Knit the City 制作的,这是一个颠覆性的针织工团体,也在其他首都城市开展业务。例如,在柏林,最近有人用毛线制作了一种毛茸茸的“咖喱香肠”。对于那些不知道的人来说,咖喱香肠是一种很受欢迎的快餐食品——每年售出超过 8 亿根这种香肠!
摘要 对医疗保健提供者来说,获得患者疼痛程度的客观测量一直是一个挑战。医院环境中最常见的疼痛评估方法是询问患者的口头评分,这被认为是一种主观方法。为了获得患者的客观疼痛程度,我们建议使用瞳孔反应和机器学习算法来客观地测量疼痛程度。东北大学招募了 32 名健康受试者参与了这项研究。通过要求健康受试者将手放在装满冰水的桶中,对他们施加疼痛刺激。我们从瞳孔直径数据中提取了 11 个特征。为了获得最佳特征子集,使用遗传算法 (GA) 为人工神经网络 (ANN) 分类器选择特征。在特征选择之前,ANN 的 f1 分数为 54.0 ± 0.25%,包含所有 11 个特征。经过特征选择后,ANN 使用所选特征子集(即平均值、均方根 (RMS) 和瞳孔曲线下面积 (PAUC))表现出最佳性能,准确率为 81.0%。实验结果表明,瞳孔反应与机器学习算法相结合可能是一种有前途的客观疼痛水平评估方法。这项研究的结果可以改善患者在远程医疗中测量疼痛的体验,尤其是在大多数人不得不待在家里的疫情期间。
图 2. 接种疫苗前后的心血管指标。A) 接种疫苗前七天和接种疫苗后七天的静息心率 (RHR)。B) 与一周前同一天相比,RHR 的百分比变化。C) 接种疫苗前七天和接种疫苗后七天的心率变异性 (HRV)。D) 与一周前同一天相比,HRV 的百分比变化。对于所有图表,顶部的标题表示数据是来自第一次、第二次还是单次注射;第二行的标题表示年龄组。数据以平均值 ± 95% 置信区间表示。
<60 88 35.77 ≥60 158 64.23 性别 男 180 73.17 女 66 26.83 组织学分级 高/中分化 25 10.16 低分化 221 89.84 肿瘤大小 小(<5cm) 120 48.78 大(≥5cm) 120 48.78 未知 6 2.44 淋巴结转移 无转移 88 35.77 转移 158 64.23 T分期 1 50 20.33 2 22 8.94 3 54 21.95 4 120 48.78 LNsN N0 88 35.77 N1 39 15.85 N2 38 15.45 N3 81 32.93 血管癌栓 是 123 50.00 否 119 48.37
了解开发人员如何通过客观措施进行不同的计算机科学活动可以帮助提高生产力,并指导软件工程中支持工具的使用和开发。在本文中,我们提出了两个受控的实验,涉及112名学生,使用三种不同的客观措施(包括神经影像学)(功能性近边界光谱(FNIR)(FNIR)和功能磁共振成像(FMRI)和眼部跟踪,探索了多个计算活动(代码理解,代码审查和数据结构操作)。通过使用fMRI检查代码审查和散文审查,我们发现编程语言与自然语言的神经表示是不同的。我们可以将参与者仅根据大脑活动进行的任务进行分类,这些任务区别是由专业知识调节的。我们利用了使用fMRI,FNIRS和眼动追踪来解码几种基本数据结构及其操作的神经表示的空间能力的心理概念的见解。我们检查列表,阵列,树木和心理旋转任务,发现数据结构和空间操作使用大脑的相同焦点区域,但在不同程度上:它们是相关的,但具有独特的神经任务。我们展示了最佳实践,并描述了fMRI,FNIRS,眼动跟踪和自我报告软件工程研究之间的含义和权衡。
客观衡量人类表现的能力很难被夸大,特别是在学习过程中的教员和学生关系中。在这项工作中,我们利用航空领域作为复杂任务工作量诱导的替代品,研究认知负荷的自动分类。我们使用混合虚拟和物理飞行环境,使用 HTC Vive Pro Eye 和 E4 Empatica 提供一套生物识别传感器。我们创建并评估多个模型。我们利用深度学习的进步,例如生成学习、多模态学习、多任务学习和 x 向量架构,对 40 个受试者的多个任务进行分类,包括三种受试者类型——飞行员、操作员和新手。我们的认知负荷模型可以自动评估与受试者、受试者类型和飞行机动(任务)无关的认知负荷,准确率超过 80%。此外,这种方法通过从五名试飞员在 C-17 飞机上进行两次测试和评估飞行收集的实飞数据得到验证。
就败血症而言,人工智能驱动的 EWS 已显示出其在改善患者预后、降低死亡率和降低成本方面的价值。2020 年发表在《内部护理医学》上的一篇系统评价和荟萃分析表明,单个机器学习模型可以根据回顾性数据提前准确预测败血症的发病情况。13 同样,2017 年 1 月发表在 JAMIA 上的一篇文章得出结论:“一个由变更管理和电子监控组成的项目,在护理点提供高度敏感和具体的决策支持,可显著减少败血症造成的死亡人数。”14 在后一项研究中,改进的临床监测依赖于自然语言处理 (NLP),这是一种人工智能,它通过将临床医生的笔记纳入风险评估中来丰富该工具的诊断能力。