当前用于评估视觉模型(VLM)的基准通常集中在其感知或解决问题的能力上,并忽略了其他关键方面,例如公平,多语言或毒性。此外,他们的评估程序和评估范围有所不同,因此很难比较模型。为了解决这些问题,我们将Helm框架扩展到VLM,以介绍视觉语言模型(VHELM)的整体评估。vhelm汇总了各种数据集,以涵盖9个方面的一个或多个:视觉感知,知识,推理,偏见,公平,多语言,稳健性,毒性和安全性。这样做,我们对这些重要因素中VLM的功能产生了全面的多维视图。此外,我们将标准推理参数,提示方法和评估指标标准化,以实现跨模型的公平比较。我们的框架设计为轻巧且自动,因此评估运行既便宜又快。我们的初始运行评估了21个现有数据集上的22个VLM,以提供模型的整体快照。我们发现了新的关键发现,例如,以效率为中心的模型(例如Claude 3 Haiku或Gemini 1.5 Flash)的表现要比其完整模型(例如Claude 3 Opus或Gemini 1.5 Pro)的差异明显差,但在其他方面进行了评估时没有在偏置基准上进行差异。对于透明度,我们发布了原始模型世代,并在网站上的https://crfm.stanford.edu/helm/vhelm/vhelm/v2.0.1上完成了完整的结果。vhelm旨在成为活的基准,我们希望随着时间的推移继续添加新的数据集和模型。
研究人员开发了具有越来越复杂和规模的神经系统的计算模型,通常情况下,从头开始模型的开发是不切实际且效率低下的。因此,迫切需要快速找到,评估,重复使用和建立其他研究人员开发的模型和模型组件。我们介绍了Neuroml数据库(Neuroml-db.org),该数据库已开发出来,以满足这一需求并汇总其他模型共享资源。Neuroml-DB存储以前已转换为模块化神经模型描述语言的离子通道,细胞和网络的1,500多个离子通道,细胞和网络模型。数据库还提供了与其他神经科学模型数据库(模型,开源大脑)的相互链接以及对原始模型出版物的访问(PubMed)。这些链接以及神经科学信息框架(NIF)搜索功能提供了与其他神经科学社区建模资源的深入集成,并极大地促进了寻找合适的重复使用模型的任务。作为一种中间语言,NeuroMl及其工具生态系统可以有效地翻译模型为其他流行的模拟器格式。模块化性质还可以有效地分析大量模型和对其性质的检查。数据库的搜索功能以及基于Web的可编程在线界面,使研究人员社区可以快速评估存储的模型电力学,形态和计算复杂性属性。此分析提供了有关模型相似性的进一步信息,以丰富数据库搜索。我们使用这些功能来对神经元和离子通道模型进行数据库规模分析,并描述由细胞模型簇在模型性能和f构图的空间中形成的新型四面体结构。
然而,Google Brain 于 2017 年发表的论文“Attention is All You Need”提出了一种名为 Transformer 的新型神经网络架构,该架构改进了长短期记忆等循环神经网络架构。5 Transformer 架构采用允许并行处理的自注意力机制,从而实现更高效的数据存储和计算,并减少训练和微调基础模型的时间和成本。6 BofA Global Research 的观点是 3 全面:专家系统的回报 (1989)。专家系统将 if/then 规则应用于数据以产生新的见解,并由德州仪器等公司实施,通过使某些流程快 20 倍并通过减少成本超支和准备费用平均每年减少 200 万美元开支,从而提高了生产力和效率。美国运通将其信贷授权人的效率提高了 45-67%。 4 微调是指使用结构化数据训练预训练模型的过程,以生成相对于原始模型而言性能更佳的专用应用程序,用于特定任务。 5 Transformer 模型还改进了 AI 应用程序的功能,因为神经网络(本质上是基础模型的大脑)能够更好地将语言语境化。例如,“bank”可能表示金融机构或河边,但查看句子中单词前后的上下文以确定含义会很有帮助。Transformer 模型通过使用句子中的所有单词(而不仅仅是之前的单词)来查找上下文,从而确定“bank”的含义。换句话说,该模型双向查找上下文,这就是“BERT”中“B”的含义。BERT 代表 Transformer 的双向编码器表示,是一种神经网络架构。 6 您所需要的只是注意力 (2017)
摘要: - 在这项工作中,检查了AI驱动的目标营销中的偏差识别和缓解措施,重点是保证自动化消费者分析的公平性。通过初步研究发现了AI模型中的明显偏见,尤其受到采购历史和地理位置等特征的影响,这些特征与种族和社会经济地位(例如种族和社会经济位置)非常相对应。具有0.60的不同影响(DI),-0.25的统计奇偶差异(SPD),机会均等的差异(EOD)为-0.30,针对原始模型计算的公平措施揭示了针对某些人群群体的显着偏见。我们使用了三种主要的缓解策略:预处理,进行中心和后处理,以抵消这些偏见。对培训数据进行了取样和平衡,将DI提高到0.85,SPD至-0.10,EOD至-0.15。措施通过处理要好得多,这可以直接在学习算法中增加公平性限制,DI为0.90,SPD为-0.05,EOD为-0.10。最成功的是后处理修改,它改变了模型输出以确保公平性;他们产生的DI为0.95,SPD为-0.02,EOD为-0.05。这些结果支持已经出版的研究,并证明AI中的偏见是一个复杂且持久的问题,需要采取多维策略。本文强调了持续的审计,开放性和多学科合作如何减少偏见。营销人员,AI从业者和立法者将发现深刻的后果,这强调了道德AI方法的要求,以维护客户信心并遵守法律。这种方法推进了有关AI伦理学的更大讨论,促进正义,并减少了AI驱动的营销系统中的偏见。
摘要 聊天机器人作为一种(AI)技术近年来受到了极大的关注,尤其是在教育领域。在应用这种新技术之前。了解影响学生在高等教育中接受或拒绝这项技术的行为意图的决定因素至关重要,为了了解这种行为的内涵,当前的研究应用了技术接受和使用统一理论(UTAUT),从原始模型中排除了两个调节器,即经验和使用自愿性。此外,本研究排除了便利条件和行为使用,因为它旨在仅调查学生的内涵行为。本研究还旨在研究人口统计因素(性别和年龄)对模型研究独立变量和行为内涵变量的影响。因此,研究人员将研究目标定为,为埃及高等教育学生接受聊天机器人技术的行为内涵制定一个框架。为了实现这些目标,研究人员通过制作问卷调查来收集所需变量的数据。这份问卷针对的是阿拉伯科学技术与海上运输学院 (AASTMT) 的学生。之所以选择 AASTMT,是因为它是埃及最古老的私立大学之一,在其教育系统中应用了人工智能技术。最终样本包含 385 份回复。通过数据测试、描述分析、相关性、回归和结构方程模型 (SEM) 分析数据。结果表明,绩效期望、努力期望和社会影响对埃及学生在高等教育中接受聊天机器人技术的行为意图有显著影响。此外,结果表明,人口因素(性别和年龄)在绩效期望、努力期望、社会影响和行为意图之间的关系中没有被证明具有调节作用。通讯作者:Ahmed Hatata 通讯作者的电子邮件地址:ahmedhatata.ah@gmail.com 收到第一次提交:2021 年 8 月 28 日 收到修订提交:2021 年 9 月 20 日 接受:2021 年 11 月 22 日 简介
摘要经验表明,合作和交流计算系统,包括隔离的单个处理器,具有严重的性能限制,无法使用von Neumann的经典计算范式来解释。在他的经典“初稿”中,他警告说,使用“太快的处理器”“使他的简单“ procepure'”(但不是他的计算模型!);此外,使用经典的计算范式模仿神经元操作是不合适的。Amdahl补充说,包括许多处理器的大型机器具有固有的劣势。鉴于人工神经网络(ANN)的组件正在互相进行大量通信,因此它们是由用于常规计算中设计/制造的大量组件构建的,此外,它们还试图使用不当的生物学操作使用不正确的技术解决方案及其可实现的有效载荷计算量表,这是概念上的模型。基于人工智能的系统的工作负载类型会产生极低的有效载荷计算性能,其设计/技术将其大小限制在“'toy'级别的系统:基于处理器的ANN系统的缩放标准)上是强烈的非线性。鉴于ANN系统的扩散和规模不断增长,我们建议您提前估算设备或应用的效率。ANN实施和专有技术数据的财富不再启用。通过分析已发布的测量结果,我们提供了证据表明,数据传输时间的作用极大地影响了ANN的性能和可行性。讨论了一些主要的理论限制因素,ANN的层结构及其技术实施方法如何影响其效率。该论文始于冯·诺伊曼(Von Neumann)的原始模型,而没有忽略处理时间的转移时间,并为Amdahl定律提供了适当的解释和处理。它表明,在这一提示中,Amdahl的定律正确地描述了ANN。
深度卷积神经网络 (DNN) 取得了显著成功,广泛应用于多种计算机视觉任务。然而,其庞大的模型规模和高计算复杂度限制了其在 FPGA 和 mGPU 等资源受限的嵌入式系统中的广泛部署。作为两种最广泛采用的模型压缩技术,权重剪枝和量化分别通过引入权重稀疏性(即强制将部分权重设为零)和将权重量化为有限位宽值来压缩 DNN 模型。尽管有研究尝试将权重剪枝和量化结合起来,但我们仍然观察到权重剪枝和量化之间的不协调,尤其是在使用更激进的压缩方案(例如结构化剪枝和低位宽量化)时。本工作以 FPGA 为测试计算平台,以处理单元(PE)为基本并行计算单元,首先提出一种 PE 级结构化剪枝方案,在考虑 PE 架构的同时引入权重稀疏化,并结合优化的权重三元化方法,将权重量化为三元值({- 1 , 0 , +1 }),将 DNN 中主要的卷积运算从乘法累加(MAC)转换为仅加法,同时将原始模型(从 32 位浮点数到 2 位三元表示)压缩至少 16 倍。然后,我们研究并解决了 PE-wise 结构化剪枝与三元化之间的共存问题,提出了一种自适应阈值的权重惩罚剪枝 (WPC) 技术。我们的实验表明,我们提出的技术的融合可以实现最佳的 ∼ 21 × PE-wise 结构化压缩率,而 ResNet- 18 在 ImageNet 数据集上的准确率仅下降 1.74%/0.94% (top-1/top-5)。
知识密集型语言任务(kilts)通常需要从可信赖的语料库中检索相关文档,例如Wikipedia,以产生特定的答案。最近,提出了一个名为Copusbrain的苏格兰语的预训练的生成检索模型,并提出了新的最先进的检索性能。然而,包括苏格兰短裙在内的大多数现有研究,包括科班班,主要集中在静态文档收集上,俯瞰了现实世界情景的动态性质,在这些情况下,将不断地将新文档纳入源语料库中。为了解决这一差距,探索检索模型有效处理苏格兰短裙中固有的动态检索方案的能力至关重要。在这项工作中,我们首先介绍了苏格兰短裙的持续文档学习(CDL)任务,并根据原始的kilt数据集构建一个名为Kilt ++的新颖基准数据集进行评估。然后,我们对在KILT ++上使用预训练的团体的使用进行了全面的研究。与固定场景中的有希望的结果不同,科体易于在动态场景中灾难性遗忘,因此阻碍了检索性能。为了减轻此问题,我们提出了Copusbrain ++,这是一个持续的生成预训练框架,在两个关键方面增强了原始模型:(i)我们采用骨干装置体系结构:通过任务特定的任务预训练的预先训练目标,为每个下游KILT学习了动态适配器;任务共享的骨干参数保持不变,以提供基础检索能力。(ii)我们利用基于类似于新文档的示例文档的经验重播策略,以防止灾难性忘记旧文档。经验结果证明了与传统和生成IR方法相比,Copusbrain ++的显着有效性和出色的效率。
经济和物理科学之间的相互作用是如此丰富,以至于新的跨学科领域已经出现了生态植物学。虽然其文化吸引力是无可争议的,但经济学家和物理学家认为相关且纪律良好的贡献很少见。可以公平地说,在精确贡献中提出的经济和金融风光的自组织批判性(SOC)范式是其中之一。许多人同情以下建议:SOC范式是财务和宏观经济的基础,但引入通用语言和分析工具的引入和分析工具有助于使该建议在描述性和规范层面上有效。实际上,早期社会提案的美德和罪在于使用简单的玩具模型来体现许多有望发挥范式作用的特征。鉴于该主题的相关性以及该领域的研究贡献数量,几乎不可能对整个艺术的系统进行系统的讨论。因此,在这篇简短的综述中,我提出了来自源自这些开创性建议的研究溢出的指导之旅,并认为SOC范式是一个重要的跨学科范式的重要组成部分,适合与社会和自然科学相关的统计平衡概念。审查的组织如下:我们将开始专注于下一节第2节,讨论到迄今为止限制了具有不同背景的研究人员之间相互作用的常见误解和文化差异。在第4节中,我们审查在撰写这一贡献时,我将以纯粹的主观观点的目的,其故意的目标不仅强调了优势,而且要阐明要使SOC国家的概念成为经济分析的更有用和有用的工具,这些问题也应阐明。然后,我们将一部分专门为我们认为SOC的以下三个主题中的每个主题中的每个部分。”在第3节中,我们重新审视了原始模型,试图澄清为什么在传统的经济辩论中,“自发出现的批判状态自发出现”的概念符合有关宏观经济爆发的起源的传统经济辩论。
最近对深度学习可靠性(DL)进行骨表面修饰(BSM)的批评,例如Courtenay等人提出的。(2024)基于一系列早期发表的研究,引起了人们对该方法疗效的担忧。然而,他们的批评忽略了关于在DL中使用小型和不平衡数据集的基本原则。通过减少培训和验证集的大小 - 在训练集中仅比测试集大20%,而某些班级验证集则在10张图像下大 - 这些作者可能无意中生成了不足的模型,以尝试复制和测试原始研究。此外,图像预处理期间编码的错误导致了根本上有偏见的模型的发展,这些模型无法有效地评估和复制原始研究的可靠性。在这项研究中,我们并不是要直接反驳其批评,而是将其作为重新评估DL在Taphonomic研究中的效率和解决方案的机会。我们通过将它们作为新的基线模型与旨在解决潜在偏见的优化模型进行比较,重新审视了应用于三个目标数据集的原始DL模型。具体来说,我们考虑了质量不佳的图像数据集引起的问题,并且可能过于适应验证集。为了确保我们的发现的鲁棒性,我们实施了其他方法,包括增强的图像数据增强,原始训练验证集的K折交叉验证以及使用模型 - 敏捷的元学习(MAML)的几次学习方法。后一种方法促进了单独的培训,验证和测试集的无偏使用。所有方法的结果都是一致的,与原始基线模型相当(如果几乎并不相同)。作为最终验证步骤,我们使用了最近生成的BSM的图像作为基线模型的测试集。结果几乎保持不变。这加强了以下结论:原始模型不受方法论上的过度拟合,并突出了它们在区分BSM中的细微效力。但是,重要的是要认识到这些模型代表了试点研究,受原始数据集的局限性在图像质量和样本量方面的限制。利用具有更高质量图像的较大数据集的未来工作具有增强模型概括的潜力,从而提高了Taphononic研究中深度学习方法的适用性和可靠性。