机器翻译关键词检索结果

在 AWS 上评估机器翻译任务的大型语言模型

Evaluate large language models for your machine translation tasks on AWS

这篇博客文章及其附带代码介绍了一种解决方案,可使用 Amazon Bedrock 中的基础模型 (FM) 试验实时机器翻译。它可以帮助收集更多有关 LLM 对您的内容翻译用例的价值的数据。

通过多语言知识图谱检索增强生成实现跨文化机器翻译

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs

翻译包含实体名称的文本是一项艰巨的任务,因为文化相关的参考在不同语言之间可能存在很大差异。这些差异也可能是由创译引起的,创译是一种适应过程,它涉及的不仅仅是音译和逐字翻译。在本文中,我们从两个方面解决了跨文化翻译的问题:(i) 我们引入了 XC-Translate,这是第一个大规模、手动创建的机器翻译基准,专注于包含可能具有文化细微差别的实体名称的文本,(ii) 我们提出了 KG-MT,一种新颖的端到端……

改进机器翻译处理语法性别歧义的方式

Improving How Machine Translations Handle Grammatical Gender Ambiguity

机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……

使用 Keras 进行基于注意力的神经机器翻译

Attention-based Neural Machine Translation with Keras

随着序列到序列预测任务变得越来越复杂,注意力机制已被证明是有帮助的。一个突出的例子是神经机器翻译。根据最近的 Google Colaboratory 笔记本,我们展示了如何在 R 中实现注意力。

视频:“ Google如何翻译如何将134种语言变成数学”

Video: “How Google Translate Turns 134 Languages Into Math”

我将此《华尔街日报》视频添加到最佳网站,以了解有关Google翻译和其他形式的机器翻译:

使用以幻觉为中心的偏好优化缓解大型语言模型中的幻觉翻译

Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization

机器翻译 (MT) 正在经历范式转变,基于微调大型语言模型 (LLM) 的系统与专门为翻译任务训练的传统编码器-解码器模型相比,竞争力越来越强。然而,基于 LLM 的系统产生幻觉的风险更高,这会严重损害用户的信任和安全。大多数关于缓解幻觉的先前研究都集中在传统的 MT 模型上,解决方案涉及事后缓解 - 检测幻觉翻译并重新翻译。虽然这种方法有效,但……

语音不仅仅是单词:语音到文本翻译系统是否利用韵律?

Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?

这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,从而也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但……

沃伦·莫斯勒称美国支出过多 — 彭博社

Warren Mosler Says US Is Spending Too Much — Bloomberg

彭博社 Odd Lots Podcast:沃伦·莫斯勒称美国支出过多每日经济新闻韩国第一大经济媒体沃伦·莫斯勒警告美国财政赤字将滚雪球般扩大“高利率并不能保证降低通胀”。尹完燮机器翻译

机器学习预测准确性指南:插值和外推

The Machine Learning Guide for Predictive Accuracy: Interpolation and Extrapolation

评估训练数据之外的机器学习模型简介近年来,机器学习 (ML) 和深度学习 (DL) 等数据驱动方法已应用于广泛的任务,包括机器翻译和个性化定制推荐。这些技术通过分析大量数据揭示了给定训练数据集中的一些模式。但是,如果给定的数据集存在一些偏差并且不包含您想要了解或预测的数据,则可能很难从训练模型中获得正确答案。照片由 Stephen Dawson 在 Unsplash 上拍摄让我们考虑一下 ChatGPT 的情况。ChatGPT 目前的最新版本是 ChatGPT 4o,该模型使用的数据训练到 2023 年 6 月(本文撰写时)。因此,如果您询问 2024 年发生的事情,而这些事情未包含在训练数据

了解 NLP 中的标记化、词干提取和词形还原

Understanding Tokenization, Stemming, and Lemmatization in NLP

自然语言处理 (NLP) 涉及处理和分析人类语言数据的各种技术。在本博客中,我们将探讨三种基本技术:标记化、词干提取和词形还原。这些技术是许多 NLP 应用程序的基础,例如文本预处理、情感分析和机器翻译。让我们深入研究每种技术,了解其用途、优缺点,并了解如何使用 Python 的 NLTK 库实现它们。1. 标记化什么是标记化?标记化是将文本拆分为单个单元(称为标记)的过程。这些标记可以是单词、句子或子单词。标记化有助于将复杂文本分解为可管理的部分,以便进一步处理和分析。为什么使用标记化?标记化是文本预处理的第一步。它将原始文本转换为可以分析的格式。这一过程对于文本挖掘、信息检索和文本分类等任

研究揭示 ChatGPT 翻译中的性别偏见

Study Reveals Gender Bias in ChatGPT Translations

研究揭示了 ChatGPT 翻译中的性别偏见,揭示了对更公平的机器翻译技术的需求。

torch 时间序列,第三集:序列到序列预测

torch time series, take three: Sequence-to-sequence prediction

在我们对时间序列预测技术的概述中,我们转向序列到序列模型。该系列中的架构通常用于自然语言处理 (NLP) 任务,例如机器翻译。然而,对于 NLP,在进行模型定义和训练之前需要进行大量的预处理。在熟悉的数值序列中,我们可以完全专注于概念。

Transformers 在深度学习和 NLP 中的工作原理:直观介绍

How Transformers work in deep learning and NLP: an intuitive introduction

对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效

Oriol Vinyals:DeepMind AlphaStar、星际争霸、语言和序列

Oriol Vinyals: DeepMind AlphaStar, StarCraft, Language, and Sequences

Oriol Vinyals 是 Google DeepMind 的高级研究科学家。在此之前,他曾在 Google Brain 和伯克利任职。他的研究已被引用超过 39,000 次。他是深度学习领域最聪明、最具影响力的人物之一。他推动了人工智能领域一些最重要的论文和想法,包括序列到序列学习、音频生成、图像字幕、神经机器翻译和强化学习。他是 AlphaStar 项目的联合负责人(与 David Silver 一起),该项目创建了一个在星际争霸游戏中击败顶级专业人士的代理。如果您想获取有关此播客的更多信息,请访问 https://lexfridman.com/ai 或在 Twitter、Linked

深度学习 (NLP/DL) 的自然语言处理的未来

Future of Natural Language Processing with Deep Learning (NLP/DL)

我最近参加了 Kevin Clarke (CS224n) 的演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势:1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限,我们如何使用无监督数据来补充训练和监督微调以做得更好?让我们将其应用于机器翻译的问题,看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。我们可以将其用于预训练,在两个语料库上分别训练编码器和解

谷歌人工智能翻译是否想出了自己的秘密语言?

Переводчик Google AI придумал собственный секретный язык?

您可能还记得,早在 9 月份,Google 就发布了神经机器翻译 (GNMT) 翻译系统。它使用深度学习技术来产生更自然的语言之间的翻译。