详细内容或原文请订阅后点击阅览
深度学习:理论与实践
TCE 会议总结 - “深度学习:理论与实践”。
来源:Another Datum上周我有幸参加了 TCE 年度会议。会议的主题是深度学习的理论和实践两个方面。作为一名喜欢了解事物运作(或不运作)原因的深度学习从业者,我知道我会发现这次会议很有趣。
TCE 年度会议我决定做一个好公民,与大家分享会议的亮点。请注意,我所说的亮点是指我主观上觉得有趣的事情。这不会是会议的详尽总结。
理解深度学习中的优化和泛化
第一个演讲者是芝加哥大学的 Nati Srebro 教授。他试图解决的挑战之一是了解是什么原因导致网络泛化良好,尽管模型类具有极高的容量。
主要结论是优化算法(SGD、Adam 等)引入了归纳偏差。通过选择一种可用的算法,训练过程将偏向于寻找特定类型的解决方案。
例如,尽管 Adam 的训练速度比 SGD 快(训练损失最小化得更快),但经验实验表明 SGD 倾向于更好地泛化(测试损失较小)。
他展示了另一个有趣的 FF 网络示例,该网络没有任何激活函数。诱导的模型类是线性函数:多个层有效地折叠为一个层。他表明,当在层之间使用不同的连接模式时,我们会得到不同质量的解决方案,尽管模型类别保持不变。这是由于我们通过指定连接模式为训练过程引入了归纳偏差。
神奇地以人类为主导的高效深度学习
在下一个演讲中,卡内基梅隆大学的 Zachary Chase Lipton 讨论了一系列工作,每一项都旨在提高从人际互动中学习的效率。
\(\epsilon\) \(1 - \epsilon\) \(\epsilon\) \(\epsilon\) 二十个问题游戏 内部 外部 哪个