∗ 博士研究员,代尔夫特理工大学,Kluyverweg 1, 2629 HS,代尔夫特,荷兰,s.rapp@tudelft.nl。† 副教授,代尔夫特理工大学,Kluyverweg 1, 2629 HS,代尔夫特,荷兰,r.schmehl@tudelft.nl。
增强语言模型 (ALM) 使大型语言模型能够使用工具,将其转化为与现实世界交互的智能代理。然而,现有的大多数 ALM 框架不同程度地缺乏以下关键特性:灵活定制、协作民主化和整体评估。我们提出了 Gentopia,一个通过简单配置即可灵活定制代理的 ALM 框架,将各种语言模型、任务格式、提示模块和插件无缝集成到统一的范式中。此外,我们建立了 GentPool,一个允许用户定制代理的注册和共享的公共平台。在 GentPool 中注册的代理是可组合的,因此可以将它们组装在一起进行代理协作,促进人工智能的民主化。为了确保代理的高质量,GentPool 的一个组成部分 GentBench 旨在从安全性、稳健性、效率等各个方面全面评估用户定制的代理。我们在 Github 1 上发布了 Gentopia,并将不断向前发展。
近年来,网络攻击的复杂性和针对平台的多样性不断增长。各种对手正在滥用越来越多的平台,例如企业平台、移动电话、个人电脑、交通系统和工业控制系统。近年来,我们目睹了针对交通系统的各种网络攻击,包括针对港口、机场和火车的攻击。交通系统成为网络攻击者更常见的目标只是时间问题。由于攻击载客量大的车辆本身具有巨大的潜在损害,并且传统机载系统缺乏安全措施,因此飞机系统的脆弱性是车辆安全领域最令人担忧的主题之一。本文全面回顾了飞机系统和组件及其各种网络,强调了它们所面临的网络威胁以及网络攻击对这些组件和网络以及飞机基本功能的影响。此外,我们提出了全面而深入的分类法,从对手的角度标准化了对航空电子领域网络安全的知识和理解。该分类法将技术划分为反映对抗攻击生命周期各个阶段的相关类别(策略),并根据 MITRE ATT&CK 方法映射现有攻击。此外,我们根据潜在威胁行为者分析各个系统之间的安全风险,并根据 STRIDE 威胁模型对威胁进行分类。提出了未来的工作方向,作为行业和学术界的指导方针。
尽管开源大型语言模型(LLM)(例如 LLaMA)取得了进步,但它们在工具使用能力方面仍然受到很大限制,即使用外部工具(API)来执行人类指令。原因是当前的指令调整主要侧重于基本语言任务,但忽略了工具使用领域。这与最先进(SOTA)闭源 LLM(例如 ChatGPT)的出色工具使用能力形成鲜明对比。为了弥补这一差距,我们引入了 ToolLLM,这是一个通用的工具使用框架,涵盖数据构建、模型训练和评估。我们首先介绍 ToolBench,这是一个用于工具使用的指令调整数据集,它是使用 ChatGPT 自动构建的。具体而言,构建可分为三个阶段:(i)API 收集:我们从 RapidAPI Hub 收集了 49 个类别的 16,464 个真实 RESTful API; (ii) 指令生成:我们提示 ChatGPT 生成涉及这些 API 的各种指令,涵盖单工具和多工具场景;(iii) 解决方案路径注释:我们使用 ChatGPT 为每条指令搜索有效的解决方案路径(API 调用链)。为了增强 LLM 的推理能力,我们开发了一种新颖的基于深度优先搜索的决策树算法。它使 LLM 能够评估多个推理轨迹并扩大搜索空间。此外,为了评估 LLM 的工具使用能力,我们开发了一个自动评估器:ToolEval。基于 ToolBench,我们对 LLaMA 进行微调以获得 LLM ToolLLaMA,并为其配备神经 API 检索器,为每条指令推荐合适的 API。实验表明,ToolLLaMA 表现出执行复杂指令和推广到未见过的 API 的卓越能力,并且表现出与 ChatGPT 相当的性能。我们的 ToolLLaMA 还在分布外工具使用数据集 APIBench 中展示了强大的零样本泛化能力。代码、训练模型和演示均可在 https://github.com/OpenBMB/ToolBench 上公开获取。
[1] Kimberly D Acquaviva 和 Matthew Mintz。2010 年。《观点:我们是否在教授种族定性?病例陈述中主观判定种族和族裔的危险》。《学术医学》85,4(2010),702-705。[2] Sarah E Ali-Khan、Tomasz Krakowski、Rabia Tahir 和 Abdallah S Daar。2011 年。《种族、族裔和血统在人类遗传研究中的应用》。《HUGO 杂志》5,1(2011),47-63。[3] Dwayne T Brandon、Lydia A Isaac 和 Thomas A LaVeist。2005 年。《塔斯基吉的遗产和对医疗保健的信任:塔斯基吉是否要为对医疗保健的不信任中的种族差异负责? 《国家医学会杂志》 97, 7 (2005), 951。[4] Lundy Braun、Anne Fausto-Sterling、Duana Fullwiley、Evelynn M Hammonds、Alondra Nelson、William Quivers、Susan M Reverby 和 Alexandra E Shields。2007 年。《医疗实践中的种族类别:它们有多大用处?》PLoS 医学 4, 9 (2007),e271。[5] Asif Doja、M Dylan Bould、Chantalle Clarkin、Kaylee Eady、Stephanie Sutherland 和 Hilary Writer。2016 年。《整个培训过程中的隐性和非正规课程:一项横断面定性研究》。《医学教师》 38, 4 (2016),410–418。[6] Keisa Fallin-Bennett。 2015. 医学界对性少数群体的隐性偏见:职业影响的周期和隐性课程的作用。《学术医学》90,5(2015),549–552。[7] Chloë FitzGerald 和 Samia Hurst。2017. 医疗专业人士的隐性偏见:系统评价。《BMC 医学伦理》18,1(2017),1–18。[8] Linda M Hunt、Nicole D Truesdell 和 Meta J Kreiner。2013. 临床护理中的基因、种族和文化:慢性病管理中的种族定性。《医学人类学季刊》27,2(2013),253–271。[9] J Jaiswal、C LoSchiavo 和 DC Perlman。 2020. 新冠疫情期间的虚假信息、错误信息和不平等驱动的不信任:艾滋病否认主义未吸取的教训。《艾滋病与行为》第 24 卷 (2020),第 2776–2780 页。[10] Myungha Jang、Shiri Dori-Hacohen 和 James Allan。2017. 群体内部的建模争议。ACM SIGIR 信息检索理论国际会议论文集(荷兰阿姆斯特丹)。计算机协会,美国纽约州纽约,第 141–149 页。https://doi.org/10.1145/3121050.3121067 ICTIR '17。[11] Reena Karani、Lara Varpio、Win May、Tanya Horsley、John Chenault、Karen Hughes Miller 和 Bridget O'Brien。 2017. 评论:卫生职业教育中的种族主义和偏见:教育工作者、教师开发人员和研究人员如何发挥作用。《学术医学》92,11S(2017),S1-S6。[12] Tao Le、Vikas Bhushan、Matthew Sochat、Kimberly Kallianos、Yash Chavda、Andrew Harrison Zureick 和 Mehboob Kalani。2018. 2018 年 USMLE Step 1 急救指南。麦格劳-希尔医学。[13] Heidi Lempp 和 Clive Seale。2004. 本科医学教育中的隐性课程:医学生对教学看法的定性研究。Bmj 329,7469(2004),770-773。[14] J. Madara。2020。美国的医疗危机比新冠肺炎更为严重。https://www.ama-assn.org/about/leadership/america-s-health-care-crisis-much-deeper-covid [15] Maria Athina Tina Martimianakis、Barret Michalec、Justin Lam、Carrie Cartmill、Janelle S Taylor 和 Frederic W Hafferty。2015 年。人文主义、隐性课程和教育改革:范围审查和主题分析。Academic Medicine 90, 11 (2015),S5–S13。[16] Sandra G Mayson。2018 年。偏见进,偏见出。YAle lJ 128 (2018),2218。[17] Jonathan M Metzl 和 Dorothy E Roberts。2019 年。结构性能力与结构性种族主义相遇:种族、政治和医学知识结构。在《社会医学读本》第二卷第三版中。杜克大学出版社,170-187。 [18] Long H. Nguyen、Amit D. Joshi、David A. Drew、Jordi Merino、Wenjie Ma、Chun-Han Lo、Sohee Kwon、Kai Wang、Mark S. Graham、Lorenzo Polidori、CristinaMenni、Carole H. Sudre、Adjoa Anyane-Yeboa、Christina M. Astley、Erica T. Warner、ChristinaY。 Hu、Somesh Selvachandran、RichardDavies、Denis Nash、Paul W. Franks、Jonathan Wolf、Sebastien Ourselin、Claire J. Steves、Tim D. Spector、Andrew T. Chan 并代表 COPE 联盟。 2021。COVID-19 疫苗犹豫和使用方面的种族和民族差异。 medRxiv (2021)。 https://doi.org/10.1101/2021.02.25.21252402 arXiv:https://www.medrxiv.org/content/early/2021/02/28/2021.02.25.21252402.full.pdf [19] Anne Pollock。2012. 4. 超越基因决定论的奴隶制假说。在《药物治疗种族》中。杜克大学出版社,107–130。 [20] Amit Prasad。2021. 反科学的错误信息和阴谋:COVID-19、后真相和科学与技术研究(STS)。科学、技术与社会 (2021)。https://doi.org/10.1177/09717218211003413 [21] Kelsey Ripp 和 Lundy Braun。 2017。医学教育中的种族/民族:美国医师执照考试第一步问题库分析。医学教学与学习 29, 2 (2017),115–122。[22] Angela Saini。2019。优越性:种族科学的回归。Beacon Press。[23] Jennifer Tsai、Laura Ucik、Nell Baldwin、Christopher Hasslinger 和 Paul George。2016。种族问题?审视和重新思考临床前医学教育中的种族形象。学术医学 91, 7 (2016),916–920。[18] Long H. Nguyen、Amit D. Joshi、David A. Drew、Jordi Merino、Wenjie Ma、Chun-Han Lo、Sohee Kwon、Kai Wang、Mark S. Graham、Lorenzo Polidori、CristinaMenni、Carole H. Sudre、Adjoa Anyane-Yeboa、Christina M. Astley、Erica T. Warner、ChristinaY. Hu、Somesh Selvachandran、RichardDavies、Denis Nash、Paul W. Franks、Jonathan Wolf、Sebastien Ourselin、Claire J. Steves、Tim D. Spector、Andrew T. Chan 以及 COPE 联盟代表。2021 年。COVID-19 疫苗犹豫和接种中的种族和族裔差异。medRxiv (2021)。 https://doi.org/10.1101/2021.02.25.21252402 arXiv:https://www.medrxiv.org/content/early/2021/02/28/2021.02.25.21252402.full.pdf [19] Anne Pollock。2012. 4. 超越基因决定论的奴隶制假说。在《药物治疗种族》中。杜克大学出版社,107–130。 [20] Amit Prasad。2021. 反科学的错误信息和阴谋:COVID-19、后真相和科学与技术研究(STS)。科学、技术与社会 (2021)。https://doi.org/10.1177/09717218211003413 [21] Kelsey Ripp 和 Lundy Braun。 2017。医学教育中的种族/民族:美国医师执照考试第一步问题库分析。医学教学与学习 29, 2 (2017),115–122。[22] Angela Saini。2019。优越性:种族科学的回归。Beacon Press。[23] Jennifer Tsai、Laura Ucik、Nell Baldwin、Christopher Hasslinger 和 Paul George。2016。种族问题?审视和重新思考临床前医学教育中的种族形象。学术医学 91, 7 (2016),916–920。[18] Long H. Nguyen、Amit D. Joshi、David A. Drew、Jordi Merino、Wenjie Ma、Chun-Han Lo、Sohee Kwon、Kai Wang、Mark S. Graham、Lorenzo Polidori、CristinaMenni、Carole H. Sudre、Adjoa Anyane-Yeboa、Christina M. Astley、Erica T. Warner、ChristinaY. Hu、Somesh Selvachandran、RichardDavies、Denis Nash、Paul W. Franks、Jonathan Wolf、Sebastien Ourselin、Claire J. Steves、Tim D. Spector、Andrew T. Chan 以及 COPE 联盟代表。2021 年。COVID-19 疫苗犹豫和接种中的种族和族裔差异。medRxiv (2021)。 https://doi.org/10.1101/2021.02.25.21252402 arXiv:https://www.medrxiv.org/content/early/2021/02/28/2021.02.25.21252402.full.pdf [19] Anne Pollock。2012. 4. 超越基因决定论的奴隶制假说。在《药物治疗种族》中。杜克大学出版社,107–130。 [20] Amit Prasad。2021. 反科学的错误信息和阴谋:COVID-19、后真相和科学与技术研究(STS)。科学、技术与社会 (2021)。https://doi.org/10.1177/09717218211003413 [21] Kelsey Ripp 和 Lundy Braun。 2017。医学教育中的种族/民族:美国医师执照考试第一步问题库分析。医学教学与学习 29, 2 (2017),115–122。[22] Angela Saini。2019。优越性:种族科学的回归。Beacon Press。[23] Jennifer Tsai、Laura Ucik、Nell Baldwin、Christopher Hasslinger 和 Paul George。2016。种族问题?审视和重新思考临床前医学教育中的种族形象。学术医学 91, 7 (2016),916–920。种族问题?审视并重新思考临床前医学教育中的种族描述。《学术医学》91,7(2016),916–920。种族问题?审视并重新思考临床前医学教育中的种族描述。《学术医学》91,7(2016),916–920。
野火是一个复杂的多尺度过程,受与其他地球过程的非线性尺度相关相互作用的影响。导致火灾的物理过程发生在很宽的尺度范围内。虽然天气过程的特征尺度范围超过 5 个数量级,从大型天气系统的百公里尺度到小尺度效应和涡流的米尺度,但与燃料热分解和燃烧相关的化学反应发生在厘米或更小的尺度上,产生的火焰长度高达 60 米。火线以平均速度传播,速度约为几分之一米/秒,同时产生的火焰以 50 米/秒的速度传播,化学反应发生在数秒或更短的量级。火灾产生的风和浮力属于极端大气现象。天气是影响火灾行为的主要外部因素,火灾与大气之间的双向相互作用至关重要——众所周知,火灾会极大地影响其周围的天气。火灾通过动量、水蒸气和热量的流动与大气动力学相互作用,并通过水分和热量保持与土壤相互作用。
人类参与者根据解释者对被解释者 1 的信念,向不同的被解释者(即解释的接受者)给出了不同的解释。当然,玛丽的解释好坏取决于她能否模拟室友的心理状态,以及他们如何根据她的解释改变自己的心理状态。玛丽对鲍勃和汤姆的信念的信念,或者她对他们每个人如何修改信念的信念,很可能是错误的,在这种情况下,她对他们的解释可能无法解释为什么地板是湿的。解释已在多种学科中得到研究。Miller [28] 对人工智能中的解释进行了广泛的调查,其中包括一系列哲学历史著作(例如,Hempel 和 Oppenheim [19];Peirce [32];Harman [17]),主张哲学和社会科学在未来解释研究中的重要作用。在人工智能领域,早期的解释研究包括各种基于逻辑和概率的溯因推理方法或所谓的最佳解释推理,包括 Pople [35]、Charniak 和 McDermott [10]、Poole [33] 和 Levesque [24] 的早期作品。在 20 世纪 80 年代中期,解释在专家系统的背景下得到普及,其中解释通常通过对一组符号推理步骤进行反向链接而生成(例如,[18, 40])。在此之后,解释成为符号 AI 推理各种应用中的共同元素(例如,[26、3、42])。最近对解释兴趣的复苏主要是以所谓的可解释 AI (XAI) 为幌子,其动机是需要为黑箱分类和基于机器和深度学习的决策系统中的决策提供人类可解释的解释(例如,Samek 等人[39];Gunning 等人[14])。许多研究人员已经承认心智理论在解释中的重要性。在 20 世纪 80 年代和 90 年代,G¨ardenfors [12] 和 Chajewska 和 Halpern [7] 等学者提出的正式解释理论认为,对一个代理的解释可能不适用于对另一个代理的解释,因此解释者必须根据被解释者的信念为其量身定制解释。在用户建模和对话领域,同样设定在 20 世纪 80 年代和 90 年代,Weiner 的 [46] BLAH 系统和 Cawsey 的 [6] EDGE 系统都根据假定的用户模型定制解释。[16];Kaptein 等人。[22])。最近,Westberg 等人。最近,研究人员利用信念-愿望-意图 (BDI) 架构作为反映心智理论的自然解释框架。此类软件架构可使解释者明确表达自己的信念、愿望和意图,以及被解释者的信念、愿望和意图,并将解释与其自己的信念和目标或被解释者的信念和目标联系起来(例如,Harbers 等人。[47] 认为,结合认知科学对心智理论的各种观点将有助于创建更适合与人类交流和解释自己的代理。此外,Miller [28] 调查了这方面的工作,并强调了解释者的重要性
许多机器学习算法的核心是使用随机变量 (randvars) 描述隐藏在数据中的行为或结构的大型概率模型。在有效机器学习算法激增之后,有效的推理算法成为焦点,以利用学习到的模型或进一步优化机器学习算法 (LeCun 2018)。通常,模型由已知个体 (常数) 池 (即已知宇宙) 及其之间的关系形成。处理个体集可以实现易于处理的推理 (Niepert and Van den Broeck 2014)。通过与行为相同的个体代表合作并仅在必要时查看特定个体,提升可以有效地处理个体集。如果根据患病人数对可能的流行病进行建模,那么所有患病的人对流行病的行为都相同。在参数因子 (parfactors) 中,用逻辑变量 (logvars) 参数化的随机变量紧凑地表示随机变量集 (Poole 2003)。一个 parfactor 不是为每个人指定一个关于患病者如何影响流行病的因子,而是作为所有人的模板。马尔可夫逻辑网络使用一阶逻辑公式进行紧凑编码 (Richardson and Domingos 2006)。已知宇宙意味着 parfactors 或马尔可夫逻辑网络中的 logvars 具有域,并且可能具有将域限制为特定 parfactors 或公式的某些常数的约束。提升推理算法
存在几种不同的方法可以确保未来变革性人工智能 (TAI) 或人工智能超级智能 (ASI) 系统的安全 [Yampolskiy, 2018, Bostrom, 2014],不同方法的支持者对其工作在短期内以及对未来系统的重要性或有用性提出了不同且有争议的主张。高可靠性代理设计 (HRAD) 是最具争议和最雄心勃勃的方法之一,由机器智能研究所 [Soares and Fallenstein, 2017] 等机构倡导,关于它是否以及如何降低未来人工智能系统的风险,人们提出了各种论点。为了减少关于人工智能安全性的辩论中的混乱,我们在此以 Rice [2020] 之前的讨论为基础,该讨论收集并提出了四个核心论点,用于证明 HRAD 是实现人工智能系统安全的途径。我们将这些论点命名为 (1) 附带效用、(2) 消除混淆、(3) 精确规范和 (4) 预测。其中每一个都对未来人工智能系统如何存在风险提出了不同的、部分相互冲突的说法。我们根据对已发表和非正式文献的审查以及咨询就该主题发表立场的专家,解释了这些假设和主张。最后,我们简要概述了反对每种方法和总体议程的论点。
随着人工智能系统在现实世界中的应用不断增加,对可靠和值得信赖的人工智能的需求也随之而来。其中一个重要方面是可解释的人工智能系统。然而,对于如何评估可解释的人工智能系统,并没有统一的标准。受图灵测试的启发,我们引入了一个以人为中心的评估框架,其中领先的领域专家接受或拒绝一个人工智能系统和另一个领域专家的解决方案。通过比较提供的解决方案的接受率,我们可以评估人工智能系统与领域专家相比的表现如何,以及人工智能系统的解释(如果提供)是否是人类可以理解的。这种设置——与图灵测试类似——可以作为广泛的以人为中心的人工智能系统评估的框架。我们通过两个实例来证明这一点:(1)一种评估,衡量系统的分类准确性,可选择纳入标签不确定性;(2)一种评估,以人为本的方式确定所提供解释的实用性。