Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
When Transformers Sing: Adapting SpectralKD for Text-Based Knowledge Distillation
探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing:采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。
Scaling Recommender Transformers to a Billion Parameters
如何实现新一代 Transformer 推荐器将 Recommender Transformers 扩展至十亿个参数后首次出现在 Towards Data Science 上。