摘要 - 我们开发并验证了一种仪器,以衡量数据可视化中感知的可读性:previs。研究人员和从业人员可以轻松地使用此工具作为评估的一部分,以比较不同视觉数据表示的可读性。我们的工具可以补充有关用户任务性能的受控实验的结果,或在开发新技术时在深入的定性工作中提供其他数据。尽管可读性被认为是数据可视化的基本质量,但到目前为止,在视觉表示的背景下还没有对构造的统一定义。因此,研究人员通常缺乏确定如何要求人们评估其可视化可读性的指导。为了解决这个问题,我们进行了一个严格的过程,以开发针对视觉数据表示的主观可读性的第一个验证工具。我们的最终仪器由4个维度的11个项目组成:可理解性,可理解性清晰度,数据值的可读性和数据模式的可读性。我们将调查表作为文档提供,其中包含OSF.IO/9CG8J的实施指南。除了该工具之外,我们还讨论了研究人员以前如何评估可视化的可读性,以及对视觉数据表示中感知可读性的因素的分析。
背景:大型语言模型 (LLM) 在处理临床信息方面表现出了先进的性能。然而,市面上可用的 LLM 缺乏专业的医学知识,仍然容易产生不准确的信息。鉴于糖尿病需要自我管理,患者通常会在网上寻求信息。我们引入了检索增强信息系统 (RISE) 框架,并评估了其在增强 LLM 以准确响应糖尿病相关咨询方面的性能。目的:本研究旨在评估 RISE 框架(一种信息检索和增强工具)在提高 LLM 性能以准确安全地响应糖尿病相关咨询方面的潜力。方法:RISE 是一种创新的检索增强框架,包括 4 个步骤:重写查询、信息检索、总结和执行。使用一组 43 个常见的糖尿病相关问题,我们分别评估了 3 个基础 LLM(GPT-4、Anthropic Claude 2、Google Bard)及其 RISE 增强版本。临床医生评估准确性和全面性,患者评估可理解性。结果:RISE 的整合显著提高了所有 3 个基本 LLM 的回答的准确性和全面性。平均而言,使用 RISE 后,准确回答的百分比增加了 12% (15/129)。具体而言,GPT-4 的准确回答率增加了 7% (3/43),Claude 2 的准确回答率增加了 19% (8/43),Google Bard 的准确回答率增加了 9% (4/43)。该框架还提高了回答的全面性,平均分数提高了 0.44(SD 0.10)。可理解性也平均提高了 0.19(SD 0.13)。数据收集时间为 2023 年 9 月 30 日至 2024 年 2 月 5 日。结论:RISE 显著提高了 LLM 在回答糖尿病相关询问方面的表现,提高了准确性、全面性和可理解性。这些改进对于RISE未来在患者教育和慢性病自我管理方面的作用具有重要意义,有助于缓解医疗资源压力并提高公众对医学知识的认识。
摘要 算法系统和人工智能在新闻制作中的日益普及引发了人们对记者是否有能力以不违背新闻规范和价值观的方式理解和使用它们的能力的担忧。这种“可理解性”问题对于公共服务媒体来说尤其严重,因为这种复杂而不透明的系统可能会扰乱问责制、决策和专业判断。本文通过文件分析和对 14 名记者的访谈,概述了人工智能在 BBC 新闻制作中的部署,并分析了记者如何理解人工智能和算法。我们发现日益普及的人工智能与 BBC 记者的理解水平之间存在脱节,他们用猜测和想象来代替对这些技术的准确概念。这可能会限制记者有效和负责任地使用人工智能系统的能力,质疑其产出和在新闻制作中的作用,或者适应和塑造它们,也可能妨碍对人工智能如何影响社会进行负责任的报道。我们建议 PSM 在个人、组织和社区三个层面制定促进人工智能可理解性和素养的策略,并且我们从社会文化角度而不是单纯的技术角度重新定义人工智能可理解性问题,以便更好地解决规范性考虑。
微软公司对美国国家标准与技术研究所 (NIST) 可解释人工智能四项原则报告草案 NISTIR 8312 的评论 2020 年 10 月 15 日 微软很高兴有机会对美国国家标准与技术研究所 (NIST) 可解释人工智能四项原则报告发表评论。我们同意 NIST 的观点,即解释人工智能的能力会影响用户对人工智能系统的信任。让人工智能系统变得易于理解是透明度的基础,而透明度是负责任地使用人工智能的核心原则。鉴于透明度的重要性,欢迎 NIST 对这一问题的关注。当人工智能用于帮助做出影响人们生活的决策时,至关重要的是让人们以一种考虑到这些人的方式理解决策是如何做出的。个人的需求可能与研究人员的需求、政策制定者的需求或特定目的的需求不同。进一步研究如何使人工智能系统的行为变得可理解或“可理解”,将有助于更明智地实现这种可理解性 1 。这表明需要重新构建报告中采用的方法。实现可理解性可能很复杂。它取决于许多变量,不会有“一刀切”的方法。虽然报告中采用的方法很周到,但我们 o
深度神经网络 (DNN) 是功能强大的黑盒预测器,在各种任务上都取得了令人印象深刻的表现。然而,它们的准确性是以牺牲可理解性为代价的:通常不清楚它们如何做出决策。这阻碍了它们在医疗保健等高风险决策领域的适用性。我们提出了神经加性模型 (NAM),它将 DNN 的一些表达能力与广义加性模型固有的可理解性相结合。NAM 学习神经网络的线性组合,每个神经网络都关注一个输入特征。这些网络是联合训练的,可以学习输入特征和输出之间任意复杂的关系。我们在回归和分类数据集上的实验表明,NAM 比广泛使用的可理解模型(如逻辑回归和浅层决策树)更准确。它们在准确性方面的表现与现有的最先进的广义加性模型相似,但更灵活,因为它们基于神经网络而不是增强树。为了证明这一点,我们展示了如何利用 NAM 对合成数据和 COMPAS 累犯数据进行多任务学习(由于其可组合性),并证明了 NAM 的可微分性使它们能够为 COVID-19 训练更复杂的可解释模型。源代码可在 neuro-additive-models.github.io 上找到。
法院、法律从业者和公众目前对基于人工智能 (AI) 的数字证据提取技术表现出一定的怀疑,这是可以理解的。人们对封闭式人工智能模型的透明度及其在数字证据挖掘中的适用性表示担忧。虽然人工智能模型牢牢扎根于数学、统计和计算理论,但争论的焦点是它们的可解释性和可理解性,特别是在它们如何得出某些结论方面。本文探讨了封闭式模型的问题、可解释性/可解释性的目标和方法。最重要的是,提出了可解释的基于人工智能的数字取证 (DF) 调查的建议。
有人认为,将越来越先进的人工智能引入医疗保健领域将面临危及患者知情同意的风险。然而,这些说法都是针对人工智能的泛泛之谈,没有经过深入的探索或分析。我将现有的关于同意的陈述和担忧综合成两个反对人工智能的主要论点——我称之为可理解性论点和人格论点。我认为,虽然这些挑战在理论上是合理的,但它们实际上并没有映射到我们期望的应用程序上。相反,让这些担忧决定医疗保健领域的人工智能政策和发展可能会阻碍有益的患者护理。
本招股说明书构成欧洲议会和欧盟理事会条例 (EU) 2017/1129(《招股说明书条例》)的招股说明书,并根据该条例编制。本招股说明书已获荷兰金融市场管理局(Autoriteit Financiële Markten,简称“AFM”)作为《招股说明书条例》下的主管当局批准,作为《招股说明书条例》目的的招股说明书。AFM 仅批准本招股说明书符合《招股说明书条例》规定的完整性、可理解性和一致性标准。此类批准不应被视为对公司或普通股质量的认可。投资者应自行评估投资普通股的适宜性。
2022 年版《加州建筑标准规范》于 2022 年 7 月 1 日或之前发布,现已可用。自发布以来,我们一直努力确保在规范采用周期中经过规则制定的所有项目都正确呈现在 2022 年出版物中,并且准确放置了延续的法规。此外,用户和出版人员发现的语法和拼写错误、错误引用和其他小印刷错误都已通过此勘误表进行更正,包括模型规范语言和加州修正案。勘误表可以随时发布,因为不需要委员会采取行动来颁布这些更改。目的是缓解解释问题并提高规范使用中的可理解性。
描述:该项目的目的是双重的:1)共同开发势头后的教育工具包,以支持年轻成年妇女,以支持其父母的角色,责任和中风后的目标; 2)考虑到年轻的成年妇女(患者)和提供者,评估教育工具包的可读性,适用性,可理解性,可行性和用户感知。开发了针对经历中风的女性量身定制的这种教育工具包,这解决了当前护理和服务中风模型中的危险差距。通过直接使女性参与这些教育工具包的创建,可以定制资源以满足其独特的需求,除了确保信息与最终用户相关且实用之外,还可以偏好。