详细内容或原文请订阅后点击阅览
创建和微调句子转换器以提高分类准确性
在本文中,我们展示了如何微调句子转换器,专门用于将 Amazon 产品归类到其产品类别(例如玩具或体育用品)。我们展示了两个不同的句子转换器,paraphrase-MiniLM-L6-v2 和专有的 Amazon 大型语言模型 (LLM) M5_ASIN_SMALL_V2.0,并比较它们的结果。
来源:亚马逊云科技 _机器学习句子变形金刚是强大的深度学习模型,可将句子转换为高质量的固定长度嵌入,从而捕获其语义含义。这些嵌入对于各种自然语言处理(NLP)任务(例如文本分类,聚类,语义搜索和信息检索)很有用。
在这篇文章中,我们展示了如何专门针对将亚马逊产品分类为其产品类别(例如玩具或体育用品)的句子变压器。我们展示了两个不同的句子变形金刚,释义 - 米尼尔姆-l6-v2和一个称为m5_asin_small_v2.0的专有的亚马逊大语模型(LLM),并比较其结果。 M5 LLM是基于BERT的LLMS,使用产品标题,项目符号,描述等对内部亚马逊产品目录数据进行了微调。目前,它们用于用例,例如自动产品分类和类似的产品建议。我们的假设是,M5_ASIN_SMALL_V2.0对于亚马逊产品类别的用例,由于使用了亚马逊产品数据,因此对Amazon产品类别类别的使用情况表现更好。我们在本文中说明的以下实验中证明了这一假设。
释义minilm-l6-v2m5_asin_small_v2.0
解决方案概述
在这篇文章中,我们演示了如何使用Amazon产品数据来微调句子变压器,以及如何使用XGBoost决策树使用结果句子变压器来提高产品类别的分类精度。为此,我们使用Kaggle竞争中的名为Amazon Product DataSet 2020的公共亚马逊产品数据集。该数据集包含以下属性和字段:
亚马逊产品数据集2020 Kaggle竞赛