单词嵌入是这种增强印象的典型示例。在密集培训后,“值”归因于多个级别的单词,每个单词都获得了一组独特的坐标。让我们以“ hotpot”一词。该程序通过详细分析使用该单词的各种上下文来归因于“热点”。作为“ hotpot”通常是在“饮食”的背景下使用的,“ hotpot”的坐标位于相当接近“进食”的坐标。“肉汤”的坐标也位于附近,也适用于“烹饪”,“牛肉”,“油”等的坐标。因此,在许多示例的基础上,该程序知道某些单词通常共享特定的上下文。因此,“ hotpot”和“饮食”之间的联系将比“ hotpot”和“食谱”之间的联系更强。这仅仅是因为“热点”和“饮食”一词在数据集中经常发现。但是,出于相同的原因,“ hotpot”和“食谱”之间的联系仍然比“ hotpot”和“跳投”之间的联系要强得多 - 在同一句子中找到“ hotpot”和“跳投”一词相对较少。
最近已经提出了几种不确定性估计方法,以用于机器翻译评估。尽管这些方法可以提供不信任模型预测的有用指示,但我们在本文中表明,大多数人倾向于低估模型的不确定性,因此,它们通常会产生不涵盖地面真理的误导性置信区间。我们建议使用保形预测,这是一种无分布的方法,可以在覆盖范围内获得具有理论上确定的固定性的置信区间。首先,我们证明了拆分的保形预测可以“正确”以前方法的置信区间,以产生所需的覆盖水平,并且我们在多个机器翻译评估指标和不确定性量化方法中揭示了这些发现。此外,我们以估计的置信区间重点介绍了偏见,并以不同属性(例如语言和翻译质量)的不平衡覆盖范围重新介绍了偏见。我们通过应用条件保形预测技术来解决每个数据子组的校准子集,从而导致均等覆盖范围。总体而言,我们表明,提供了对校准集的访问,共形预测可以帮助识别最合适的不确定性量化方法并调整预测的置信区间,以确保与不同属性有关。1
发展是在日本政府对Ainu作为土著人民的正式认可之后,这导致了全国对AINU语言课程和教育材料的资金(Sato,2012年)。许多AINU学习者今天将日语说日语;因此,实用的机器翻译是Ainu振兴不可或缺的一部分。但是,宫川(Miyagawa)(2023)先前的一项研究面临着挑战,包括在不同方言之间的区分和在翻译日常对话时遇到的困难。为了解决这些问题,我们采取了以下方法。首先,我们增强了语料库。以前的研究中的Corpora主要偏向有限地区的民间传说。我们从各种方言和操作中收集并数字化资源,以确保更大的多样性。我们还引入了一种新颖的方法,用于ainu-日语翻译,可以区分方言和域,从而减少不同区域或上下文之间的措辞混乱。在本文中,我们详细介绍了方法论的细节,介绍我们的结果,并讨论了我们发现的含义,这些含义可能有助于Ainu的振兴,这也可能适用于其他低水平语言。
摘要:在大数据、云计算技术发展的影响下,基于人工智能的机器翻译逐渐走入人们的生活。与人工翻译相比,机器翻译价格低廉、便捷实用、可以随时随地进行文本翻译,能够满足上百种语言的翻译需求,但机器翻译缺乏文化敏感性,无法连接文本与语言情绪。对此,深入分析人工翻译与机器翻译的相同点与不同点,并立足于人工翻译的未来研究现阶段翻译行业的发展策略,最终在不断提高译者翻译水平的同时,推动人工翻译与机器翻译同步发展。
在攻读博士学位的每个阶段,我都受益于许多组织的宝贵帮助。我特别要感谢:Acrolinx 的 Andrew Bredenkamp 和 Sabine Lehmann 允许我在创作实验中使用他们的软件;Cochrane 翻译社区的 Juliane Reid、Hayley Hassan 和 Andrea Cervera 帮助我招募机器翻译评估研究的参与者(还要特别感谢 Juliane Ried 在创作和机器翻译实验的设计阶段提出的深刻意见);Cochrane UK(牛津)的 Therese Docherty 和工作人员在我作为 INTERACT 借调期间接待了我两个月,帮助我更好地了解了 Cochrane 的创作工作流程;以及亚利桑那州立大学(凤凰城)学习科学与教育技术实验室的 Danielle McNamara 教授及其团队,在我 INTERACT 借调期间接待了我四个月,分享了他们在心理学领域的丰富知识,
你的确是对的!但目前计算机进行的近似计算遵循了完全不同的路径:在几分之一秒内执行数百万次数学运算,以获得有时可能被标记为足够有时可能不足够的翻译。事实证明,它们恰好足够的次数百分比在过去几年中急剧上升。但是,从历史上看,人工神经网络被设计为自然神经网络(例如我们的大脑)如何工作的简化模型,其中进行的认知过程也是分布式神经计算过程的结果,这些过程与上面提到的数学运算并没有太大不同。本章将教你 NMT 技术的关键要素。我们将首先指出人类大脑如何进行翻译与 NMT 系统如何进行翻译之间的联系。这将有助于我们介绍全面了解机器学习和人工神经网络原理所需的基本概念,这构成了 NMT 的两个基石。之后,我们将讨论非上下文词嵌入的基本原理,这是一种具有许多有趣属性的词的计算机化表示,当通过一种称为注意力的机制组合时,将产生所谓的上下文词嵌入,这是实现 NMT 的关键因素。所有这些要素将使我们能够全面展示两种最常用的 NMT 模型(即 Transformer 和循环模型)的内部工作原理。本章最后介绍了一系列次要主题,这些主题将提高您对这些系统如何在幕后运行的了解。
在攻读博士学位的每个阶段,我都从许多组织那里获得了宝贵的帮助。我要特别感谢:Acrolinx 的 Andrew Bredenkamp 和 Sabine Lehmann 允许我在创作实验中使用他们的软件;Cochrane 翻译社区的 Juliane Reid、Hayley Hassan 和 Andrea Cervera 帮助我招募机器翻译评估研究的参与者(还要特别感谢 Juliane Ried 在创作和机器翻译实验的设计阶段提出的深刻意见);Cochrane UK(牛津)的 Therese Docherty 和工作人员在我作为 INTERACT 借调期间接待了我两个月,并帮助我更好地了解了 Cochrane 的创作工作流程;以及亚利桑那州立大学(凤凰城)学习科学与教育技术实验室的 Danielle McNamara 教授及其团队,在我 INTERACT 借调期间接待了我四个月,分享了他们在心理学领域的丰富知识,
近年来,由于深度学习方法的出现,机器翻译 (MT) 得到了迅猛发展,而神经机器翻译 (NMT) 则显著提高了自动翻译的质量。虽然大多数工作涵盖了技术、法律和医学文本的自动翻译,但机器翻译在文学文本中的应用以及人类在这一过程中的作用尚未得到充分探索。为了弥补这一研究不足领域的空白,本文介绍了一项研究的结果,该研究旨在评估三种机器翻译系统对两种不同文学体裁、两部小说(乔治·奥威尔的《1984》和简·奥斯汀的《傲慢与偏见》)和两首诗(艾米莉·狄金森的《我感受到了大脑中的葬礼》和玛格丽特·阿特伍德的《海妖之歌》)的性能,这代表了不同的文学时期和时间线。评估通过自动评估指标 BLEU 进行,以客观评估机器翻译系统在每种体裁中的表现。本研究还概述了其局限性。
神经机器翻译模型再现其培训数据中存在的性别偏见,尤其是从性别中性语言(如英语)翻译成像西班牙语(如西班牙语)的语法性别语言时。本文通过将最先进的语言调整为性别平衡且合成生成的领域来调整性别偏见。我们的方法涉及使用以结构化提示为指导的大语言模型(LLM)的合成数据扩展,因为它对可扩展数据增强具有很大的好处。我们首先识别LLM和提示组合,该组合生成最准确,最少偏见的反事实句子。实验表明,当由更广泛的示例,逐步推理引导时,Llama 2-13B模型表现最好,并使用模型所需的相同语言来完成任务。使用此设置,我们增加了一个具有性别修饰句子的数据集,然后使用Lora来调整NLLB模型,Lora是一种参数效率的方法,仅训练模型参数的1.5%。我们的实验表明,在不影响翻译质量的情况下,性别偏差的统计学显着降低。较大的数据集结合了事实和合成反事实,并滤除低质量生成的示例有助于更有效地概括性别语言模式。这些结果具有更广泛的含义:首先,参数有效的微调可以以较小的计算成本减少性别偏见;其次,llm aigment的数据集可以匹配其他合成增强方法的有效性。