从机器学习工程师那里学习 - 第2部分：数据集 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

从机器学习工程师那里学习 - 第2部分：数据集

2025年2月13日 20:29 33 Comments

在第1部分中，我们讨论了收集良好图像数据并为您的图像分类项目分配适当标签的重要性。另外，我们讨论了您数据的类和子类。这些似乎很简单，但是要对未来有一个扎实的理解很重要。因此，如果您还没有，请[…]从机器学习工程师那里进行的帖子学习 - 第2部分：数据集首先出现在数据科学上。

来源:走向数据科学

在第1部分中，我们讨论了收集良好图像数据并为您的图像分类项目分配适当标签的重要性。另外，我们讨论了您数据的类和子类。这些似乎很简单，但是要对未来有一个扎实的理解很重要。因此，如果没有，请检查一下。

第1部分图像分类

现在，我们将讨论如何构建各种数据集以及对我的应用程序效果很好的技术。然后，在下一部分中，我们将超越简单的精度来评估您的模型。

下一个部分

我将再次使用示例动物园动物图像分类应用程序。

数据集

作为机器学习工程师，我们都熟悉火车验证测试集，但是当我们包括第1部分中讨论的子类的概念时，并将其纳入下面讨论的概念以设置最低和最大图像计数每个类别以及分阶段和合成数据的组合，过程变得更加复杂。我必须创建一个自定义脚本来处理这些选项。

第1部分

我将在分配培训数据之前引导您浏览这些概念：

图像截止值 - 图像太少，您的模型性能会受到影响。太多了，您花费的时间超出了价值。

图像截止

置信度阈值 - 您的模型表明了它在预测中的自信程度。让我们用它来决定何时向用户提出结果。

置信度阈值

基准集 - 实际数据是混乱的，基准集应反映出这一点。这些需要将模型扩展到极限，并帮助我们决定何时准备生产。

基准集

上演和综合数据 - 现实世界数据是王，但有时您需要生产自己的甚至生成数据才能脱颖而出。小心它不会损害性能。

上演和合成数据 重复图像 构建数据集

图像截止 第3部分

第3部分第3部分

应用程序截止值数据集图像分类简单的数据花费的机器学习混乱的上演图像数据子类验证测试模型下一个讨论实际数据工程师部分图像截止阈值置信度重要性自己的合成基准