万维网的发展使得人们可以随时随地轻松访问大量信息源,这为更多人依赖在线新闻媒体而非印刷媒体铺平了道路。这种情况加速了在线新闻行业的快速增长,并带来了巨大的竞争压力。在这项工作中,我们提出了一组混合特征,用于在发布前预测在线新闻的流行度。从新闻文章中提取了两类特征,第一类是常规特征,包括元数据、时间、上下文和嵌入向量特征,第二类是增强特征,包括可读性、情感和心理语言学特征。除了分析常规特征和增强特征的有效性外,我们还将这些特征结合起来,得出了一组混合特征。我们整理了一个印度新闻数据集,该数据集由来自评分最高的印度新闻网站的新闻文章组成,用于研究,并为未来的研究贡献了数据集。对印度新闻数据集 (IND) 进行评估,并使用各种监督机器学习模型将其与基准可混合数据集上的性能进行比较。我们的结果表明,所提出的增强特征与常规特征的混合对于在发布前预测在线新闻流行度非常有效。
主要关键词