详细内容或原文请订阅后点击阅览
研究大型语言模型的属性:Maxime Meyer 访谈
在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。我们与马克西姆·迈耶 (Maxime Meyer) 坐下来聊了聊他当前的研究、未来的计划以及他如何找到博士联盟的经历。您能否先自我介绍一下,您在哪里学习以及 [...]
来源:ΑΙhub在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。我们与马克西姆·迈耶 (Maxime Meyer) 坐下来聊了聊他当前的研究、未来的计划以及他如何找到博士联盟的经历。
您能先介绍一下您自己、您在哪里学习以及您的研究主题吗?
大家好,我是 Maxime,新加坡国立大学数学系二年级博士生。我的研究重点是大型语言模型。
您正在关注大型语言模型的哪些方面?
人们注意到大型语言模型(例如 ChatGPT)的一件事是,它们通常可以很好地处理正常长度的提示,但当输入变得很长时,它们的答案可能会变得更糟。例如,如果您粘贴 100 页的 PDF,模型可能会错过细节、感到困惑或给出不太可靠的答案。我的研究重点是理解随着输入变长而导致的性能下降。我研究它为什么会发生,它如何随着文本的增长而发展,以及我们是否可以预见或限制它。
模型在过去几年中已经有了很大的改进。过去,即使是一页纸对他们来说也可能很困难。如今,一个页面通常就可以了。但非常大的文本仍然是一个问题。如果您想将整本书放入模型中(例如《圣经》)并提出一个特定问题,这对于当前系统来说是太多了。冗长的公司政策文件或大量规则和指令也会出现同样的问题。
您的工作中有特别有趣的方面吗?
一个特别有趣的结果是,我们最近开发了可以预测模型性能的公式。根据模型的一些基本特征,我们可以估计它可以可靠处理的最大输入长度。这意味着我们并不总是需要进行大量实验来找到其极限。
您计划如何扩展您在该主题上的工作?
在攻读博士学位之外,您喜欢做什么?
关于马克西姆·莫尔
,
