Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...
Accidental discovery hints at mystery structures within our brain
科学家可能偶然发现了大脑中有助于清除废液的血管网络——这一发现可能“代表着我们对所有神经退行性疾病理解的范式转变”
Romania’s national oil pipeline firm Conpet reports cyberattack
罗马尼亚国家石油管道运营商Conpet表示,网络攻击扰乱了其业务系统,并导致其网站暂时离线。 Conpet是一家国有控股公司,拥有并经营该国的原油、凝析油和液体石油产品管网。它的主要作用是将石油从国内生产油田和进口点运输到炼油厂[...]
Does China Want a Chunk of Siberia?
摘要和要点:尽管网上不断有评论暗示中国可能吞并西伯利亚部分地区以收回历史领土,但专家认为,由于俄罗斯的核威慑力量和修正主义的高昂政治成本,军事征服的可能性极小。 -虽然历史对19世纪的“不平等条约”——特别是《瑷珲条约》(1858年)和《中国想要西伯利亚一块吗?》的公约感到不满。首次出现于19FortyFive。