Loading...
机构名称:
¥ 1.0

语言模型的成功激发了NLP社区的参与需要隐含和复杂推理的任务,并依靠类似人类的常识机制。尽管这种垂直思维任务相对流行,但横向思维难题几乎没有引起关注。为了弥合这一差距,我们设计了bain t saser:一项多项选择的答案,旨在测试该模型表现出侧向思维的能力并违反默认常识关联的能力。我们设计了一个三步的程序,用于创建第一个横向思维基准,包括数据收集,分散术者的产生和重建示例的结构,从而导致1,100个具有高质量注释的难题。为了评估模型横向推理的一致性,我们根据其问题的语义和上下文重建,使B雨变得更加宽敞。我们对最先进的指令和常识性语言模型进行的实验揭示了Human和模型性能之间的显着差距,当考虑了跨重构格式的一致性时,这将进一步扩大。我们制作所有代码和数据,以刺激开发和评估横向思维模型的工作。

大语言模型的横向思维难题

大语言模型的横向思维难题PDF文件第1页

大语言模型的横向思维难题PDF文件第2页

大语言模型的横向思维难题PDF文件第3页

大语言模型的横向思维难题PDF文件第4页

大语言模型的横向思维难题PDF文件第5页

相关文件推荐

2022 年
¥1.0