该项目处理加州大学圣地亚哥分校 Julian McAuley 提供的亚马逊数据集。该项目旨在使用潜在狄利克雷分配 (LDA) 提取亚马逊文本评论中讨论的特征。此外,一旦提取出特征,就会构建一个推荐器。为了实现这一点,该项目提出了各种模型,如主题聚类推荐、无约束矩阵分解和基于内容的过滤。首先,清理数据集并进行数据探索以观察数据中的各种趋势。根据评论的评分,创建词云以确定数据集中每个单词的重要性。在初步数据探索之后,使用潜在狄利克雷分配 (LDA) 提取数据集中讨论的主题。[8,10] 最后,使用这些主题,在主题聚类推荐、无约束矩阵分解和基于内容的过滤等不同模型的帮助下构建推荐器。根据召回率和平均绝对误差等指标,将选择最佳模型。关键词:亚马逊,推荐器,LDA,主题建模,基于内容的过滤,矩阵分解 1.简介 互联网是重要的信息来源。过去几年,电子商务领域取得了长足的发展。几乎所有我们需要的东西都可以在网上轻松获得。亚马逊、eBay 和 Flipkart 等网站在电子商务中发挥着至关重要的作用。亚洲、非洲/中东和拉丁美洲地区超过 60% 的人口愿意在线购物 [7]。据观察,2017 年第一季度,电子商务销售额达到 1057 亿美元 [10]。如果大多数人依赖电子商务网站购物,那么概述网站上发布的有关产品的评论就很重要。其他各种客户都会阅读有关在线发布的任何产品的评论。根据现有的评论和可用的评论数量,客户往往会决定是否购买该产品。网站上任何产品的评论对于决定网站或产品的成功都起着非常重要的作用。
主要关键词