We Tuned 4 Classifiers on the Same Dataset: None Actually Improved
我们通过适当的嵌套交叉验证和统计测试根据学生表现数据调整了四个分类器。结果呢?调整没有改变任何东西。
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......
The Machine Learning “Advent Calendar” Day 18: Neural Network Classifier in Excel
通过显式公式理解前向传播和反向传播机器学习“降临日历”第 18 天:Excel 中的神经网络分类器一文首先出现在《走向数据科学》上。
The Machine Learning “Advent Calendar” Day 15: SVM in Excel
本文不是从边距和几何形状开始,而是从熟悉的模型逐步构建支持向量机。通过改变损失函数并重新使用正则化,SVM 自然地表现为经过优化训练的线性分类器。这种观点将逻辑回归、SVM 和其他线性模型统一到一个单一的、连贯的框架中。机器学习“降临日历”第 15 天:Excel 中的 SVM 帖子首先出现在走向数据科学上。