Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...
Soft Computing, Volume 30, Issue 2, February 2026
1) 基于量子安全轻量级模糊提取器的医疗物联网用户认证方案作者:Arman Ahmad, S. Jagatheswari, R. Praveen 页数:787 - 8082) 基于涉及房屋最优选择的区间 2 型中智数的决策作者:Muhammad Touqeer, Ehtisham Rasool, Soheil Salahshour页面:809 - 8213)通过神经网络模型进行比特币和以太坊交易策略作者:Mimmo Parente,Luca Rizzuti页面:823 - 8344)基于参考向量和超距离的多目标进化算法作者:Xujian Wang,Yongjin Jing,Minli Yao页