Loading...
机构名称:
¥ 1.0

对于所有实验,源解析器都是一个神经 PCFG [64],具有 20 个非终结符和 20 个前终结符。所有实验共享的其他模型设置包括:(1)Adam 优化器,学习率 = 0.0005、β1 = 0.75、β2 = 0.999,(2)梯度范数剪裁为 3,(3)L2 惩罚(即权重衰减)为 10-5,(4)Xavier Glorot 均匀初始化,以及(5)训练 15 个 epoch,并在验证集上提前停止(大多数模型在 15 个 epoch 之前就收敛得很好)。SCAN 和风格迁移数据集的批次大小为 4,机器翻译数据集的批次大小为 32。由于内存限制,在实践中我们使用批次大小 1,并通过梯度累积模拟更大的批次大小。我们观察到训练有些不稳定,一些数据集(例如 SCAN 和机器翻译)需要使用 4 到 6 个随机种子进行训练才能表现良好。一般来说,我们发现过度参数化语法和使用比必要更多的非终结符是可以的 [13]。

附录

附录PDF文件第1页

附录PDF文件第2页

相关文件推荐

2023 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2021 年
¥2.0
2021 年
¥2.0
2022 年
¥21.0
2025 年
¥1.0
2021 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2021 年
¥6.0
2022 年
¥1.0
2024 年
¥18.0
2025 年
¥1.0
2024 年
¥5.0
2023 年
¥2.0
2023 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2024 年
¥129.0