轻松使用LLM

清洁数据,清晰的见解:用于重塑电子表格的LLM工作流程,首先出现在数据科学方面。

来源:走向数据科学

本文是有关任何表格数据集自动化数据清洁的一系列文章的一部分。

数据清洁

您可以使用CleanMyExcel.io服务在您自己的数据集上的本文中描述的功能,该功能是免费的,不需要注册。

cleanmyexcel.io

从Why

让我们考虑一下此Excel电子表格,其中包含有关电影奖励的信息。它来自书籍清洁数据以进行有效的数据科学,可以在此处获得。

清洁有效数据科学的数据 在这里

这是一个典型且常见的电子表格,每个人都可以在日常任务中拥有并处理。但是怎么了?

要回答这个问题,让我们首先回忆起使用数据的最终目标:得出帮助指导我们个人或商业生活中决策的见解。这个过程至少需要两个关键的事情:

    可靠的数据:无问题的数据清理数据,不一致,重复,缺失值等。数据:一个促进处理和操纵的良好范围的数据框架。
  • 可靠的数据:无问题,不一致,重复,缺失值等清理数据。
  • 整洁数据:一个良好的数据框架,可促进处理和操纵。
  • 第二点是任何分析的主要基础,包括处理数据质量。

    返回我们的示例,想象我们要执行以下操作:

    1。对于涉及多个奖项的每部电影,列出了与之相关的奖项。

    2。对于每个演员/女演员赢得多个奖项,列出与他们相关的电影和奖项。

    3。检查所有演员/女演员名字是否正确且标准化。

    自然地,此示例数据集足够小,可以通过眼睛或手动得出这些见解(如编码一样快)。但是,现在数据集包含整个奖项历史记录;这将是耗时,痛苦和错误的,而没有任何自动化。

    重塑此数据的示例:

    什么是整洁的数据?形状良好的数据框架?