成对的跨变量分类

多级零 - 嵌入分类和错误检查后成对的跨变量分类首先出现在数据科学上。

来源:走向数据科学

intro

该项目是关于使用CV/LLM模型对图像和文本进行更好的零摄像分类,而无需花费时间和金钱在培训中进行微调,或者在推理中重新运行模型。它在嵌入式上使用了一种新颖的维度降低技术,并使用锦标赛风格的配对比较来确定类。这导致13个类别的50K数据集将文本/图像一致性从61%增加到89%。

分类

https://github.com/doc1000/pairwise_classification 您将在哪里使用它 实际应用在大规模的搜索中,其中推理速度很重要,而模型成本支出是一个问题。它对于在注释过程中查找错误也很有用 - 大型数据库中的错误分类。 结果 比较文本和图像类协议的加权F1得分从13个类别的〜50K项目中的文本和图像类协议进行比较。视觉检查还验证了结果。 f1_score(加权)基本modelpairwisemulticlass0.6130.889binary0.6610.645 f1_score(加权)基本模型 f1_score(加权) 基本模型 成对 Multiclass0.6130.889 多类 0.613 0.889 binary0.6610.645 二进制 0.661 0.645 专注于多级工作,班级计数的内聚力随着模型而改善。 左:基础,完整的嵌入,Argmax在Cosine相似性Modelity Modelity Modelity:成对锦标赛模型中使用Crossratioimage评分的特征子发现作者

https://github.com/doc1000/pairwise_classification

您将在哪里使用它

实际应用在大规模的搜索中,其中推理速度很重要,而模型成本支出是一个问题。它对于在注释过程中查找错误也很有用 - 大型数据库中的错误分类。

结果

比较文本和图像类协议的加权F1得分从13个类别的〜50K项目中的文本和图像类协议进行比较。视觉检查还验证了结果。
f1_score(加权)基本modelpairwisemulticlass0.6130.889binary0.6610.645 f1_score(加权)基本模型 f1_score(加权) 基本模型 成对 Multiclass0.6130.889 多类 0.613 0.889 binary0.6610.645 二进制 0.661
0.645

专注于多级工作,班级计数的内聚力随着模型而改善。 左:基础,完整的嵌入,Argmax在Cosine相似性Modelity Modelity Modelity:成对锦标赛模型中使用Crossratioimage评分的特征子发现作者

方法:通过均值评分确定的嵌入子维度的余弦相似性的成对比较

矢量分类的一种直接方法是使用余弦相似性将图像/文本嵌入与类嵌入进行比较。它相对较快,需要最小的开销。您还可以在嵌入式(逻辑回归,树,SVM)上运行分类模型,并无需进一步的嵌入而定位类。

使用交叉方差,配对特定特征选择和成对锦标赛分配。
作者的所有图像除非在字幕中另有说明

amzn

测试统计量:交叉方差特殊