● CIP 优先考虑公平。长期以来,市议会分配公共工程和交通资金的方法一直是“除以 15”:资金在 15 个市议会区之间平均分配。但平等并不公平。许多洛杉矶社区都承受了多代种族主义、流离失所、暴力、隔离和贪婪。如果没有确定未来 10 年优先事项和项目的计划,就无法确保洛杉矶优先考虑有色人种社区和低薪工人的需求,从而为这段历史负责。
基因序列聚类在计算生物学和生物信息学中非常重要且重要,用于研究系统发育关系和基因功能预测等。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。 基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。 例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。 已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。 需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。随着生物学数据量的快速生长(基因/蛋白质序列),基因序列聚类算法在低精度和效率方面面临着更多挑战。基因序列数据库中增长的冗余序列通常有助于大多数聚类方法的记忆和计算需求的增加。例如,原始的基于贪婪的增量比对(GIA)聚类算法获得了很高的精度聚类结果,但效率非常低。已经开发了有效的贪婪增量聚类算法,其精确成本降低了,通常可以关闭速度的贸易聚类精确度以提高速度。需要在精度和速度之间取得更好平衡的算法。 本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。 ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。 四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。 与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。 此外,我们开发了一个多节点版本来处理大型数据集。 该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。算法。本文提出了一种新型的基于贪婪的增量比对算法,称为NGIA,用于具有高效率和精度的基因聚类。ngia由一个预滤波器,修改后的短词过滤器,一种新的数据包装策略,一种修改的贪婪增量方法组成,并通过GPU并行化。四个独立数据集上的实验评估表明,所提出的工具可以以99.99%的高精度聚类。与CD-HIT,VSEARCH和UCLUST的结果相比,NGIA平均快13.6倍,6.2倍和1.7倍。此外,我们开发了一个多节点版本来处理大型数据集。该软件可从https://github.com/siat-hpcc/gene-sequence-clustering获得。强可伸缩性测试表明,NGIA的多节点版本可以以31%的并行效率扩展32个线程。©2022 Elsevier B.V.保留所有权利。
明智地阅读 贪婪地阅读的年轻人,尽管不加选择,但并不一定比在阅读选择上更挑剔的青少年更聪明。一个读过二十世纪每一位杰出运动员生平故事的年轻人,或者一个沉浸在她能读到的每一本社会抗议小说中的女大学生,很可能在一个非常有限的领域里学到了所有的知识。但书中充满了如此多的奇迹,看到聪明的年轻人限制自己的经验,往往会令人沮丧。
摘要 — 云计算提供对计算资源的按需访问,同时外包基础设施和服务维护。边缘计算可以利用单板计算机等低成本硬件将云计算能力扩展到计算资源有限的地区,例如农村地区。云数据中心托管的机器学习算法可能会违反用户隐私和数据保密性要求。联邦学习 (FL) 无需将数据发送到中央服务器即可训练模型并确保数据隐私。使用 FL,多个参与者可以在单个机器学习模型上进行协作而无需共享数据。但是,农村网络中断可能随时发生,并且无线网络的质量因位置而异,这会影响联邦学习应用程序的性能。因此,需要一个能够独立于基础设施状态维护服务质量的平台。我们提出了一种针对农村 FL 的自适应系统,该系统采用基于贪婪提名启发式 (GNH) 的优化来协调构成农村计算环境的多个资源之间的应用程序工作流。GNH 为工作流放置提供分布式优化。GNH 利用资源状态来降低故障风险和成本,同时仍按时完成任务。我们的方法使用模拟农村环境进行了验证 - 由多个共享相同基础设施并运行共享 FL 应用程序的分散控制器组成。结果表明,GNH 在部署 FL 任务方面优于三种算法:随机放置、循环负载平衡器和简单贪婪算法。索引术语 - 计算连续体、联邦学习、无服务器计算。
摘要:本文提出了一种针对不平衡数据的稳健加权评分 (ROWSU),用于在存在类别不平衡问题的高维基因表达二分类问题中选择最具判别性的特征。该方法解决了基因表达数据集中类别分布高度倾斜这一最具挑战性的问题之一,该问题会对分类算法的性能产生不利影响。首先,通过从少数类观测值中合成数据点来平衡训练数据集。其次,使用贪婪搜索方法选择最小基因子集。第三,引入一种新的加权稳健评分,其中权重由支持向量计算,以获得一组优化的基因。将基于该方法得分最高的基因与通过贪婪搜索方法选择的最小基因子集相结合,形成最终的基因集。即使在类别分布倾斜的情况下,新方法也能确保选择最具判别性的基因,从而提高分类器的性能。在6个基因表达数据集上评估了所提出的ROWSU方法的性能。以分类准确率和灵敏度作为性能指标,将所提出的ROWSU算法与其他几种最先进的方法进行比较。为了更好地理解结果,还绘制了箱线图和稳定性图。结果表明,所提出的方法优于现有的基于k近邻(kNN)和随机森林(RF)分类器分类性能的特征选择程序。
CS 2710 / ISSP 2160:人工智能期中考试(2006 年秋季)本考试为闭卷考试。考试由三部分组成。每部分都标明了预计所花的时间。如果您花费的时间太多,请跳过此部分继续学习,有时间再回来。第一部分是多项选择题。第二部分是简答题和问题解答题。第三部分是论文。第一部分 - 多项选择题。总共 20 分。15 分钟。圈出最能回答问题的答案。1.下列哪种搜索算法不是知情搜索?a. 贪婪搜索 b. 迭代深化 c. A * d. 爬山搜索 2.下列哪种搜索算法可能将局部最大值与全局最大值混淆?a. 深度优先 b.A * c. 爬山 d. 贪婪搜索 3.最优搜索算法 a. 找到所有解中路径成本最低的解 b. 找到所有解 c. 找到使用最少内存的解 d. 保证在有解时找到解 4.语义网络 a. 是一种基于图的表示,其中节点表示概念,弧表示关系 b. 是一种基于图的表示,其中节点表示关系,弧表示概念 c.将实体表示为一组槽和相关值 d. 是情境演算 5 的子集。本体 a. 将实体表示为一组槽和相关值 b. 是一阶逻辑的子集 c. 是一种推理机制 d. 提供表达知识的词汇表
最佳优先搜索是一般树搜索或图搜索算法的一个实例,其中根据评估函数 f(n) 选择要扩展的节点。选择具有最低评估的节点进行扩展,因为评估衡量了到目标的距离。这可以使用优先级队列来实现,优先级队列是一种数据结构,它将边缘保持在 f 值的升序顺序中。2.1.2. 启发式函数启发式函数或简称启发式函数是一种函数,它根据可用信息在每个分支步骤中对各种搜索算法中的替代方案进行排序,以便决定在搜索期间要遵循哪个分支。最佳优先搜索算法的关键组成部分是启发式函数,用 h(n) 表示:h(n) = 从节点 n 到目标节点的最便宜路径的估计成本。例如,在罗马尼亚,人们可以通过从阿拉德到布加勒斯特的直线距离来估计从阿拉德到布加勒斯特的最便宜路径的成本(图 2.1)。启发式函数是向搜索算法传递附加知识的最常见形式。贪婪最佳优先搜索贪婪最佳优先搜索尝试扩展最接近目标的节点,理由是这可能快速得到解决方案。它使用启发式函数 f(n) = h(n) 来评估节点。以罗马尼亚的路线寻找问题为例,目标是从阿拉德市出发到达布加勒斯特。我们需要知道从各个城市到布加勒斯特的直线距离,如图 2.1 所示。例如,初始状态是 In(Arad) ,直线距离启发式 h SLD (In(Arad)) 为 366。使用直线距离启发式 h SLD ,可以更快地到达目标状态。
在加强学习(RL)中,国家的奖励通常被认为是增加的,并且按照马尔可夫的假设,它们独立于先前访问的状态。在许多重要的应用中,例如覆盖范围控制,实验设计和信息性路径计划,奖励自然会降低回报,即鉴于以前访问过的类似状态,其价值会降低。为了解决这个问题,我们提出了subsodular rl(s ub rl),该范式旨在优化通过捕获降低回报的subsodular Set函数模拟的更通用的,非添加的(和历史依赖的)奖励。不幸的是,即使在表格设置中,我们也表明,所产生的优化问题很难近似。是出于贪婪算法在经典次次优化方面的成功的动机,我们提出了S ub po,这是一种基于政策梯度的简单梯度al-gorithm,用于S ub rl,通过贪婪地最大化边际增长来处理非增长的重新奖励。的确,在基础马尔可夫决策过程(MDP)的一些假设下,s ub po恢复了子模块的最佳常数因子近似值。此外,我们得出了一种自然政策梯度方法,即使在大型州和行动空间中,也可以在本地优化S UB RL实例。我们通过将S UB PO应用于生物多样性监测,贝叶斯实验设计,信息路径计划和覆盖范围最大化等多种应用来展示我们的方法的多功能性。我们的结果证明了样本效率以及对高维状态行动空间的可伸缩性。
查找数据集的一组嵌套分区对于在不同尺度上发现相关结构很有用,并且经常处理与数据有关的方法。在本文中,我们引入了一种基于模型的分层聚类的一般两步方法。将集成的分类可能性标准视为目标函数,此工作适用于该数量可以处理的每个离散潜在变量模型(DLVM)。该方法的第一步涉及最大程度地提高相对于分区的标准。解决了通过贪婪的山坡攀岩启发式方法发现的已知局部最大最大最大最大值问题时,我们基于遗传算法引入了一种新的混合算法,该算法允许有效地探索解决方案的空间。所得算法小心地结合并合并了不同的解决方案,并允许簇数K的共同推断以及簇本身。从这个自然分区开始,该方法的第二步是基于自下而上的贪婪程序来提取簇的层次结构。在贝叶斯语境中,这是通过考虑dirichlet群集比例的先验参数α作为控制聚类粒度的正规化项来实现的。标准的新近似值被推导为α的对数线性函数,从而实现了合并决策标准的简单函数形式。第二步允许在更粗的尺度上探索聚类。将所提出的方法与现有的模拟和实际设置的策略进行了比较,结果表明其结果特别相关。本工作的参考实现可在论文1随附的r软件包贪婪中获得。
摘要 - 启用AI互联网的快速增长(IOV)呼吁进行有效的机器学习(ML)解决方案,该解决方案可以处理高车辆移动性和分散数据。这激发了对车辆边缘云建筑(VEC-HFL)的等级联合学习的出现。然而,关于vec-hfl的文献中未充满反应的一个方面是,车辆通常需要同时执行多个ML任务,在这种多模型训练环境中会带来至关重要的挑战。首先,不正确的聚合规则可以导致模型过时和延长训练时间。第二,车辆移动性可能通过防止车辆将其型号返回网络边缘而导致数据利用率降低。第三,在各种任务中实现平衡的资源分配变得至关重要,因为它主要影响协作培训的有效性。,我们通过提出一个在动态VEC-HFL中提出多模型训练的框架来解决这些挑战的第一步之一,目的是最大程度地减少全球训练潜伏期,同时确保跨各种任务均衡培训,这一问题是NP-HARD。为了促进及时的模型培训,我们引入了混合同步 - 同步聚合规则。在此基础上,我们提出了一种新颖的方法,称为混合进化和贪婪分配(心脏)。现实世界数据集上的实验证明了心脏比现有方法的优越性。索引术语 - 等级联合学习,互联网,多模型培训,分布式机器学习。框架分为两个阶段:首先,它通过混合启发式方法来实现平衡的任务调度,该方法结合了改进的粒子群优化(PSO)和遗传算法(GA);其次,它采用低复杂性贪婪算法来确定车辆分配任务的训练优先级。