预训练语言模型已经改变了自然语言处理 (NLP) 领域,它们的成功激发了基因组学领域开发特定领域基础模型 (FM) 的努力。然而,从头开始创建高质量的基因组 FM 需要大量资源,需要强大的计算能力和高质量的预训练数据。大型语言模型 (LLM) 在 NLP 中的成功很大程度上是由工业规模的努力推动的,这些努力利用了庞大、多样化的语料库和海量计算基础设施。在这项工作中,我们旨在绕过从头开始创建基因组 FM 的数据和计算瓶颈,而是建议将现有的 LLM 重新用于基因组学任务。受最近观察到的“跨模态转移”现象的启发——在自然语言上预训练的转换器可以推广到其他模态——我们引入了 L2G,它使用神经架构搜索 (NAS) 和一种新颖的三阶段训练程序将预训练的 LLM 架构调整为基因组学。值得注意的是,无需对 DNA 序列数据进行大量预训练,L2G 在多个基因组学基准测试中超过一半的任务上都比经过微调的基因组 FM 和任务特定模型表现优异。在增强子活性预测任务中,L2G 进一步展示了其识别重要转录因子基序的能力。我们的工作不仅突出了语言模型在基因组学等域外任务中的通用性和有效性,还为基因组研究中更高效、资源密集程度更低的方法开辟了新途径。
我们记录到,过去四十年美国工资结构变化的50%-70%是由于快速自动化行业中从事常规任务的工人群体的相对工资下降造成的。我们开发了一个概念框架,其中跨行业的任务分配给不同类型的劳动力和资本。自动化技术扩大了资本所执行的任务集,将某些工人群体从他们具有比较优势的工作中取代。该框架产生了一个简单的方程,将某个人口群体的工资变化与其经历的任务位移联系起来。我们报告了支持这种关系的强有力证据,并表明纳入任务位移的回归模型可以解释1980年至2016年期间教育工资差异的大部分变化。当我们控制市场力量、非工会化和其他形式的资本深化以及与自动化无关的技术的变化时,工资变化和任务位移之间的负相关关系不受影响。我们还提出了一种评估自动化全面一般均衡效应的方法,该方法包括行业结构变化和不同群体间任务重新分配产生的连锁反应。我们的定量评估解释了工资不平等的重大变化如何与适度的生产率增长相辅相成。
建模远程DNA依赖性对于了解广泛的生物学环境中的基因组结构和功能至关重要。然而,有效捕获这些广泛的依据,这些依赖可能跨越数百万个基本对,例如三维(3D)染色质折叠预测,仍然是一个重大挑战。此外,这是一个全面的基准套件,用于评估依赖远程依赖性的任务。To address this gap, we introduce DNAL ONG B ENCH , a benchmark dataset encompassing five important genomics tasks that consider long-range dependencies up to 1 million base pairs: enhancer-target gene interaction, ex- pression quantitative trait loci, 3D genome organization, regulatory sequence activity, and transcrip- tion initiation signals.为了全面评估Dnal ong b ench,我们评估了五种方法的性能:特定于任务的专家模型,基于卷积的神经网络(CNN)模型以及三个微调的DNA DNA基础模型 - Hyenadna,Caduceus-PH和Caduceus-Ps。我们将视Nnal ong b ench作为标准化资源,有可能促进对新兴DNA序列基于长期依赖关系的全面比较和严格评估。
摘要。本文研究了两种大语模型(LLMS)的性能-GPT-3.5-Turbo和Llama-2-13b-以及一个小型语言模型(SLM) - Gemma-2b,在气候变化(CC)和环境领域内的三个不同的分类任务。将基于BERT的模型作为基准,我们将它们的功效与这些基于变压器的模型进行了比较。此外,我们通过分析这些文本分类任务中语言置信分数的校准来评估模式的自我评估能力。我们的发现表明,尽管基于BERT的模型通常均优于LLM和SLM,但大型生成模型的性能仍然值得注意。此外,我们的校准分析表明,尽管Gemma在初始任务中得到了很好的校准,但此后会产生不一致的结果。骆驼经过合理的校准,GPT始终表现出强大的校准。通过这项研究,我们旨在为持续的讨论生成LMS在解决地球上一些最紧迫的问题方面的实用性和有效性的讨论中做出贡献,并在生态学和CC的背景下强调了它们的优势和局限性。
摘要 - 机器人武器应该能够学习新任务。这里的一个框架是强化学习,在该学习中,机器人具有编码任务的奖励函数,并且机器人自主学习的动作以最大程度地提高其奖励。现有的强化学习方法通常将此问题构成马尔可夫决策过程,并学习政策(或政策层次结构)以完成任务。这些政策原因是机器人臂需要采取的数百个细粒度的动作:例如,向右移动稍微移动或旋转几个度。但是我们希望机器人执行的操作任务通常可以分解为少数高级运动:例如,到达对象或转动手柄。在本文中,我们提出了一种基于通道的无模型增强学习方法。机器人现在没有学习低级策略,而是学习路点的轨迹,然后使用现有控制器在这些航路点之间进行插值。我们的关键新颖性是将基于Waypoint的设置作为一系列多臂匪徒构建:每个匪徒问题都对应于机器人运动沿线的单路点。从理论上讲,与标准框架相比,对这种重新制定的理想解决方案的遗憾界限较低。我们还引入了一个近似的后固定解决方案,该解决方案一次构建机器人的运动点。跨基准模拟和两个现实世界实验的结果表明,这种提出的方法比最先进的基线更快地学习新任务。请参阅此处:https://youtu.be/mmed-lyfq4y
ai基础模型[1]封装了一个概念,其中AI模型以无监督或自制的方式进行预培训,例如,以一项基本任务进行了基本任务,例如,在句子中预测下一个单词,在一定数据中,训练有素的模型随后是一个句子的基础,以示例为基础,以示例为基础,以示例为基础。本质上,他们不是狭窄的专家,而是通才。尽管这些模型的概念通过大语言模型(LLM)(例如那些基础chatgpt [2])赢得了知名度,但原则上,可以在各种方式上使用类似的技术,例如,图像,音频,视频,非结构化的网格等。鉴于实验磁性局限融合设备中不同模态的大量数据以及实验融合科学家需要执行的各种任务需要执行的多种任务,因此出现了一个自然的问题,即是否可以为实验融合数据创建AI基础模型以增强和加速融合科学。本文试图在概念层面上解释如何创建这些基础模型以及如何有效地用于实验融合设置。
创建一个虚构的希腊神的图片。确保您的海报引人注目,并充满事实和信息。尝试考虑您的上帝的象征。创建自己的古希腊马赛克。为您的马赛克选择一个设计(在互联网上找到一个),然后用铅笔轻轻绘制设计。将不同的彩色纸或卡片切成条,然后将其切成小正方形。将正方形放在铅笔设计上,并将正方形粘贴在设计上的正确位置。构成您自己的古希腊单词搜索家庭成员,以使用希腊人,奥运会,士兵和头盔等单词来做。将神话变成卡通,例如Theseus和Minotaur。使用大量的语音气泡。从斯巴达或古希腊的家庭成员的角度写日记摘录。尝试写下您对日常生活的感受。古希腊哲学家塔莱斯(Thales of Miletus)注意到,健康的植物在埃及尼罗河淹没的土地上生长。您在家种植任何植物吗?在家里种一些东西,并制作图片日记以显示您每周的植物的样子?您能找出植物生长和保持健康所需的植物吗?
生物医学知识图(BKG)已成为组织和利用整个生物医学领域发现的庞大而复杂的数据的强大工具。然而,当前对BKG的评论通常将其范围限制在特定的领域或方法上,从而忽略了更广泛的景观和快速的技术进步来重塑它。在本调查中,我们通过从三个核心角度提供对BKG的系统审查来解决这一差距:域,任务和应用程序。我们首先研究了如何从不同的数据源构建的BKG,包括分子相互作用,药理数据集和临床记录。接下来,我们讨论BKGS启用的基本任务,重点是知识管理,检索,推理和解释。最后,我们重点介绍了精确医学,药物发现和科学研究中的现实世界应用,这说明了BKG在多个领域的翻译影响。通过将这些观点综合为一个统一的框架,这项调查不仅阐明了BKG研究的当前状态,而且为将来的探索建立了基础,从而实现了创新的方法论进步和实践实现。
∗ 我们感谢 Hildegunn Kyvik-Nordås 以及厄勒布鲁大学和 Ratio 研讨会的参与者提供的有益评论。Lodefalk 和 Engberg 感谢 Ratio 提供的资金支持,Lodefalk 感谢 Jan Wallander 和 Tom Hedelius(拨款 P19-0234)以及 Torsten Söderberg 基金会(拨款 E46/21)提供的资金支持。Koch 和 Schroeder 感谢嘉士伯基金会提供的资金支持。† 厄勒布鲁大学和 Ratio,瑞典。电子邮件:erik.engberg@oru.se。‡ 奥胡斯大学,丹麦。电子邮件:mkoch@econ.au.dk。§ 通讯作者:Magnus Lodefalk,副教授。地址:厄勒布鲁大学经济学系,瑞典厄勒布鲁 SE-70182,电话:+46 19 303407,+46 722 217340;全球劳工组织,德国埃森;比率研究所,瑞典斯德哥尔摩。电子邮箱:magnus.lodefalk@oru.se。¶ 丹麦奥胡斯大学。电子邮箱:sschroeder@econ.au.dk。