第五,也许是最严重的一点:问题“自动”选择进行少样本学习的方式完全不清楚,可能不合理。论文中说(图 2)“如果零样本学习不起作用,则进行少样本学习”,以及(第 4 页)“如果问题没有解决 [通过零样本学习],我们将执行以下操作 [描述少样本程序]”。问题是,系统如何知道零样本学习没有成功?据我所知,论文中没有回答这个问题。也许系统使用了一些合法的方法;例如,Codex 系统无法生成可执行代码。但是,如果这是标准,人们会预期在某些时候,零样本学习会产生可执行但错误的代码;而论文中没有提到这一点。更有可能的是,当零样本学习产生了错误的答案时,系统会转向少样本学习。也就是说,程序正在使用记录的正确答案来指导其操作。这将是作弊 1,如果是这样的话,那么所有与小样本学习相关的结果都必须被抛弃,或者至少用一个非常大的星号来解释。