加权和关键词检索结果

Sigmoid 自注意力的理论、分析和最佳实践

Theory, Analysis, and Best Practices for Sigmoid Self-Attention

*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……

损失厌恶还是错误?

Loss aversion or mistakes?

Ryan Oprea 在 AER 上发表的一篇非常出色的论文:风险下的决策就是复杂性下的决策。摘要:我们提供的证据表明,经典的彩票异常现象,如概率加权和损失规避,并不是风险的特殊现象。当受试者评估确定性的、正向的货币支付时,它们也会出现(而且通常强度相同),这些支付已被分解为类似于彩票。因此,我们发现,例如,在没有概率的环境中,概率加权明显,在没有损失范围的环境中,损失规避明显。在受试者中,这些确定性任务中的异常强烈地预示着彩票中的相同异常。这些发现表明,激发我们最重要的风险行为理论的大部分行为源自复杂性驱动的错误,而不是真正的风险偏好。有大量的实验显示了看似理性选择的异常;行为经济学家将这些