详细内容或原文请订阅后点击阅览

深度学习：理论与实践

2023年10月8日 09:33 33 Comments

TCE 会议总结 - “深度学习：理论与实践”。

来源:Another Datum

上周我有幸参加了 TCE 年度会议。会议的主题是深度学习的理论和实践两个方面。作为一名喜欢了解事物运作（或不运作）原因的深度学习从业者，我知道我会发现这次会议很有趣。

TCE 年度会议

我决定做一个好公民，与大家分享会议的亮点。请注意，我所说的亮点是指我主观上觉得有趣的事情。这不会是会议的详尽总结。

理解深度学习中的优化和泛化

第一个演讲者是芝加哥大学的 Nati Srebro 教授。他试图解决的挑战之一是了解是什么原因导致网络泛化良好，尽管模型类具有极高的容量。

主要结论是优化算法（SGD、Adam 等）引入了归纳偏差。通过选择一种可用的算法，训练过程将偏向于寻找特定类型的解决方案。

例如，尽管 Adam 的训练速度比 SGD 快（训练损失最小化得更快），但经验实验表明 SGD 倾向于更好地泛化（测试损失较小）。

他展示了另一个有趣的 FF 网络示例，该网络没有任何激活函数。诱导的模型类是线性函数：多个层有效地折叠为一个层。他表明，当在层之间使用不同的连接模式时，我们会得到不同质量的解决方案，尽管模型类别保持不变。这是由于我们通过指定连接模式为训练过程引入了归纳偏差。

神奇地

在下一个演讲中，卡内基梅隆大学的 Zachary Chase Lipton 讨论了一系列工作，每一项都旨在提高从人际互动中学习的效率。

\(\epsilon\) \(1 - \epsilon\) \(\epsilon\) \(\epsilon\) 二十个问题游戏内部外部哪个

Adam SGD 过程训练 TCE 解决方案泛化学习的网络有趣 epsilon 会议学习模型年度会议深度亮点