深度学习:理论与实践

TCE 会议总结 - “深度学习:理论与实践”。

来源:Another Datum

上周我有幸参加了 TCE 年度会议。会议的主题是深度学习的理论和实践两个方面。作为一名喜欢了解事物运作(或不运作)原因的深度学习从业者,我知道我会发现这次会议很有趣。

TCE 年度会议

我决定做一个好公民,与大家分享会议的亮点。请注意,我所说的亮点是指我主观上觉得有趣的事情。这不会是会议的详尽总结。

理解深度学习中的优化和泛化

第一个演讲者是芝加哥大学的 Nati Srebro 教授。他试图解决的挑战之一是了解是什么原因导致网络泛化良好,尽管模型类具有极高的容量。

主要结论是优化算法(SGD、Adam 等)引入了归纳偏差。通过选择一种可用的算法,训练过程将偏向于寻找特定类型的解决方案。

例如,尽管 Adam 的训练速度比 SGD 快(训练损失最小化得更快),但经验实验表明 SGD 倾向于更好地泛化(测试损失较小)。

他展示了另一个有趣的 FF 网络示例,该网络没有任何激活函数。诱导的模型类是线性函数:多个层有效地折叠为一个层。他表明,当在层之间使用不同的连接模式时,我们会得到不同质量的解决方案,尽管模型类别保持不变。这是由于我们通过指定连接模式为训练过程引入了归纳偏差。

神奇地

以人类为主导的高效深度学习

在下一个演讲中,卡内基梅隆大学的 Zachary Chase Lipton 讨论了一系列工作,每一项都旨在提高从人际互动中学习的效率。

\(\epsilon\) \(1 - \epsilon\) \(\epsilon\) \(\epsilon\) 二十个问题游戏 内部 外部 哪个