详细内容或原文请订阅后点击阅览
为什么当我输入中文时,我的编码助手开始用韩语回复
从中文提示到韩语响应:对代码词汇如何重塑语言的嵌入空间调查《为什么当我输入中文时我的编码助手开始用韩语回复》一文首先出现在《走向数据科学》上。
来源:走向数据科学。我主要用中文和我的编码助理一起工作。然而,我的写作常常是鱼龙混杂:很多工程术语是我更熟悉的英文(尤其是我们在 python、git 等中使用的术语),有些甚至很难自然地翻译成中文。
昨天,我用中文问我的编码助理:“run.py有早停吗?我在恒源云上跑,发现没有触发”,意思是“run.py是否实现提前停止?我在共享GPU服务上运行该项目,并没有看到提前停止被触发。”像往常一样,我很自然地输入了技术标记 run.py 的原始英文形式。该模型检查了代码并做出以下响应:
所有技术标记仍为英语(run.py、config.py、train_unified),而解释结构则改为韩语。这并不是一个独特的案例。这种情况时常发生:只要我把中文和英文的工程术语混在一起,韩文总是会出现。
这让我问:这是一个语言问题,还是嵌入空间中更深层次的问题?
假设
嵌入空间主要不是由语言的本质构成的。经过与语言模型一起训练后,它们往往按任务寄存器进行组织,例如学术写作、会话文本,以及编码助手的工程/代码。中文虽然是世界上使用人数最多的语言,但并不是工程注册的天然媒介,并且在技术语料库中的代表性有限。
在这种情况下,一旦出现诸如 review/branch/commit/PR/diff 之类的工程标记,文本在嵌入空间中的行为可能会停止像“中文”一样。相反,它可能会漂移到工程吸引子场。
我们将进行一些实验来为这个假设提供经验证据。
受控语言漂移
我们构造以下受控的句子序列,其中英语单词逐渐取代中文单词:
第 0 阶段:请帮我检查这个分支
第 1 阶段:请帮我回顾这个分支
第 2 阶段:请帮我审查这个分支
