Languages

2024-06-25 机构名称:

Red Hat Enterprise Linux 9安装和使用动态编程语言

建筑特定的Python Wheels建立在RHEL 9新近粘附在上游体系结构命名上，该架构允许客户在RHEL 9上构建其Python Wheels并将其安装在非RHEL系统上。python车轮构建的RHEL先前版本与以后版本兼容，可以安装在RHEL9。请注意，这仅影响包含为每个体系结构构建的Python扩展的车轮，而不是带有纯Python代码的Python Wheels，这不是特定于体系结构的。

查看详细

File

2024-08-18 机构名称:

Cendol：印尼语言的开放指导调节的大型语言模型

大语言模型（LLMS）在各种领域和语言中表现出雄性的能力。然而，低资源语言（例如印尼 - 西安土著语言）出现了一个显着的质量差距，使它们在这种语言文本中具有无效和效率低下。为了弥合这一质量差距，我们介绍了Cendol，Cendol是印尼LLM的集合，其中包含了仅解码器和编码的解码器体系结构，这些架构遍布各种型号。我们强调了Cendol在各种任务中的有效性，取得了约20％的提高，并证明了其概括印度尼西亚看不见的任务和土著语言的能力。此外，Cendol模型展示了改善人类的偏爱，尽管它们在捕获印尼的知识知识和文化价值方面存在局限性。此外，我们讨论了用于语言适应的参数有效调谐（例如Lora）的缺点。另外，我们提出词汇适应的用法以提高效率。最后，我们评估了Cendol的安全性，并展示了一种语言（例如英语）的预训练的安全性，即使没有RLHF和安全性微调，也可以转移到低资源语言（例如印尼语）。1

查看详细

File

2021-07-08 机构名称:

在线编程语言学习工具的当前趋势：系统文献综述

学生在学习编程语言 (PLL) 时面临困难，这促使许多学者研究其背后的因素。尽管在 PLL 过程中发现了许多积极和消极因素，但使用 PLL 中的在线工具被认为是一种积极推荐的方法。这促使许多研究人员提供解决方案和建议，从而产生许多选择和选项。然而，对这些努力进行分类并展示已经完成的工作，将为未来的研究提供更好、更清晰的形象。因此，本文旨在进行系统的文献综述，以展示已经进行的研究，然后根据在线工具的类型和研究目的对其进行分类。该研究遵循 Kitchenham 和 Charters 编写 SLR（系统文献综述）的指南。搜索结果显示 2013 年至 2018 年 9 月之间的 1390 篇出版物。经过选定标准的筛选后，发现 160 篇出版物足以回答评论问题。本系统评价的主要结果是对在线 PLL 工具的研究目的进行分类，对工具进行分类并发现在线 PLL 工具的当前趋势。

查看详细

File

2022-06-27 机构名称:

支持双语学习者的有效策略（无论教师讲什么语言）

鉴于加州早期学习课堂中儿童语言背景的多样性，以及许多教师可能不会讲课堂上儿童的所有（甚至任何）母语，教师需要采取一些策略，这些策略不需要他们讲 DLL 的语言，就能有效地支持 DLL 及其发展。这些策略可以包括课堂上特定的环境支持和材料，以促进家庭和学校之间的文化和语言连续性，并帮助年轻的 DLL 感到安全和舒适（Castro 等人，2011 年）。例如，提供母语书籍和环境印刷品（如标签），以及代表 DLL 不同背景的学习和游戏材料（例如娃娃和食物），表明儿童的语言和文化背景在课堂上受到重视（Espinosa 和 Crandell，2020 年）。研究还发现，使用母语书籍可以促进 DLL 的语言发展，至少在有意识的母语教学的陪伴下是如此（例如，Simon-Cereijido 和 Gutierrez-Clellen，2014 年；Pollard-Durodola 等人，2016 年；Méndez 等人，2015 年）。

查看详细

File

2025-01-13 机构名称:

语言实体掩蔽可改善低资源语言的多语言模型的跨语言表示

按照掩蔽语言建模 (MLM) 目标进行训练的多语言预训练语言模型 (multiPLM) 通常用于双语文本挖掘等跨语言任务。然而，这些模型的性能对于低资源语言 (LRL) 仍然不是最优的。为了改进给定 multiPLM 的语言表示，可以进一步对其进行预训练。这称为持续预训练。先前的研究表明，使用 MLM 进行持续预训练，随后使用翻译语言建模 (TLM) 进行预训练可以改进 multiPLM 的跨语言表示。然而，在掩蔽期间，MLM 和 TLM 都会给予输入序列中的所有标记相同的权重，而不管标记的语言属性如何。在本文中，我们引入了一种新颖的掩蔽策略，即语言实体掩蔽 (LEM)，用于持续预训练步骤，以进一步改进现有 multiPLM 的跨语言表示。与 MLM 和 TLM 相比，LEM 将掩码限制在语言实体类型名词、动词和命名实体上，这些实体在句子中占据更重要的地位。其次，我们将掩码限制在语言实体范围内的单个标记上，从而保留更多上下文，而在 MLM 和 TLM 中，标记是随机掩码的。我们使用三个下游任务评估 LEM 的有效性，即双语挖掘、并行数据管理和代码混合情感分析，使用三种低资源语言对英语-僧伽罗语、英语-泰米尔语和僧伽罗语-泰米尔语。实验结果表明，在所有三个任务中，使用 LEM 持续预训练的多 PLM 优于使用 MLM+TLM 持续预训练的多 PLM。

查看详细

File

2024-10-30 机构名称:

适应低资源语言的开源大型语言模型：土耳其语的案例研究

尽管具有英语主导性的大语言模型的进步，但低资源语言仍需要进一步的开发才能增强全球可访问性。代表这些语言的主要方法是单语和多语言预读。单语言预告片由于硬件要求而昂贵，而且多语言模型在语言中通常具有不平衡的性能。这项研究通过调整大型语言模型（接受英语培训）来探讨一种替代性，从而探讨了低资源语言。我们评估各种策略，包括持续的培训，教学微调，特定的微调和词汇扩展。结果表明，持续的训练可以证明语言理解，如困惑得分所反映，而特定于任务的调整通常会增强下游任务的性能。但是，扩展词汇并没有显示出实质性的好处。此外，虽然较大的模型通过几次调整来改善任务性能，但在适应时，多语言模型的形式比单语的同行更糟。

查看详细

File

2024-05-04 机构名称:

通过大型语言模型的及时工程降低非英语语言的文化幻觉

摘要 - 及时工程中的预测提供了减轻大语模型（LLMS）文化幻觉的重要潜力。提示的战略表述，与深厚的文化和语言见解相结合时，可以在非英语环境中尤其是LLM的准确性和文化敏感性。本文探讨了在三个主要LLMS（Openai Chat-gpt，Google Gemini和Anthropic Claude）中及时工程的应用，阐明了量身定制的提示如何有效地减少文化偏见并改善用户互动。通过案例研究和比较分析，研究确定了最佳实践，并为进一步发展提供了战略建议。这些发现强调了在AI中持续创新和道德考虑的重要性，以确保全球技术应用中的包容性和尊重。

查看详细

File

2024-04-04 机构名称:

设计博物馆释放工具包，用于减少所有6种官方语言的展览环境影响

设计博物馆的环境影响工具包是创建的，该工具包是在更广泛的博物馆社区中共享和使用的。它包括一份书面指南，以减少展览设计的环境影响和衡量相关碳排放的影响模型的环境影响。环境影响模型使博物馆能够跟踪和计算与每个展览相关的碳排放。以及记录数据，它还旨在在设计过程本身中帮助决策。这使展览团队能够评估策展和设计选择的碳足迹，例如特定材料的环境优点或运输特定物体涉及的排放。虽然《环境影响指南》基于设计博物馆的作品，但它提供了核心原则，这些原则可以转移到博物馆领域，并可以使其他机构能够反思他们举办展览的方式。这范围从展览的设计和建设到计划中使用的通信的能量。由未来的天文台支持并由艺术与人文研究委员会（AHRC）资助，该工具包最初是由设计博物馆于2023年推出的。它出现了浪费年龄：设计可以做什么？，一个设计博物馆展览，探讨了设计师如何重新利用浪费并锻造更可持续的行业。在英国展览会进行的第一个生命周期评估之一中，设计博物馆对废物进行了环境审核

查看详细

File

2024-12-14 机构名称:

超越边界：在跨数据集和语言中学习通用实体分类法，以获取命名实体识别

开放命名实体识别（NER）涉及从任意域中识别任意类型的实体，对于大语言模型（LLMS）仍然具有挑战性。最近的研究表明，对数据数据的微调LLM可以提高其性能。但是，直接对现有数据集进行培训会忽略其不一致的实体定义和冗余数据，从而将LLMS限制为数据集 - 特定的学习和阻碍域外适应性。为了解决这个问题，我们提出了B 2 NERD，这是一个紧凑的数据集，旨在指导LLMS在通用实体分类学下的开放NER中的概括。b 2书呆子使用两个步骤的过程从54个Ex-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is-Is。首先，我们检测到跨数据集的不一致的实体定义，并通过可区分的标签名称来澄清它们，以构建400多种实体类型的Uni-Glesal分类学。第二，我们使用数据修剪策略来解决冗余，该策略选择了更少的类别和语义多样性的样本。综合评估表明，B 2 NERD显着增强了LLMS的开放式NER功能。我们的B 2 NER模型，在B 2 NERD上训练，超过6.8-12.0 f1点，并超过15个数据集和6种语言的3个室外基准标记中的先前方法。数据，模型和代码可在https://github.com/umeannever/b2ner上公开获取。

查看详细

File

2006-12-13 机构名称:

NUREG/CR-6463，“审查用于核电站安全系统的软件语言指南。最终报告。”

介绍了用高级语言编写的安全系统软件的编程和审计指南。这些指南源自从相关标准和研究文献中收集的对软件安全至关重要的问题框架。这些指南针对以下高级语言提供了特定语言的改编版本：Ada、C/C++、可编程逻辑控制器 (PLC) 梯形逻辑、国际电工委员会 (IEC) 标准 1131-3 顺序功能图、Pascal 和 PL/M。报告的附录包括指南的表格摘要和有关所选语言的其他信息。

查看详细

XiaoMi-AI文件搜索系统

Languages

Red Hat Enterprise Linux 9安装和使用动态编程语言

Cendol：印尼语言的开放指导调节的大型语言模型

在线编程语言学习工具的当前趋势：系统文献综述

支持双语学习者的有效策略（无论教师讲什么语言）

语言实体掩蔽可改善低资源语言的多语言模型的跨语言表示

适应低资源语言的开源大型语言模型：土耳其语的案例研究

通过大型语言模型的及时工程降低非英语语言的文化幻觉

设计博物馆释放工具包，用于减少所有6种官方语言的展览环境影响

超越边界：在跨数据集和语言中学习通用实体分类法，以获取命名实体识别

NUREG/CR-6463，“审查用于核电站安全系统的软件语言指南。最终报告。”

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI