对General域Corpora培训的大型语言模型(LLM S)在自然语言处理(NLP)任务上表现出了显着的要求。然而,以前的研究通过以域为中心的Corpora训练LLM S在专业任务上表现更好。是由这种见解的刺激,我们开发了一套全面的LLM S套件,该套件是针对地球科学,生物学,物理学,地球物理学,行星科学和天体物理学的紧密相关领域量身定制的,并使用从多元化数据来源中汲取的科学公司进行了培训。模型套件包括:(1)使用域特异性词汇和语料库培训的编码模型来解决NLP任务,(2)基于对比的学习文本嵌入了使用多种数据集培训的模型,以解决信息检索和(3)使用知识蒸馏的较小型号的较小版本,这些型号的较小版本,这些模型的较小版本是对延期或资源约束的较小型号。我们还创建了三个新的科学基准数据集,气候 - 变化NER(实体识别),
主要关键词