详细内容或原文请订阅后点击阅览
在询问 Gemini 之前我花了一个小时进行数据预处理任务
Gemini 如何在几秒钟内解决我的 Pandas 问题,以及为什么数据科学基础知识对于发现次优解决方案仍然很重要在询问 Gemini 之前我花了一个小时进行数据预处理任务的帖子首先出现在走向数据科学上。
来源:走向数据科学花费大量时间为下游任务准备数据。无论是数据清理、处理缺失值、特征工程、数据预处理还是后处理,这个阶段都需要大量的时间。
因此,我正在处理这个后处理任务,我需要根据其他两列的数据,通过从现有列中提取值来在 Pandas DataFrame 中创建一个新列。
我本来可以直接要求法学硕士来编写代码(我通常这样做),但这次我想自己编写。时间是凌晨,头脑清醒,有心情处理一些复杂的数据操作。
这是我必须做的。我有一个包含 Predicted_categories、pred_category_id 和 text_predicted_probs 列的 DataFrame。
Predicted_categories 列中的值是“category_id”-“category_description”格式的五个类别的列表。
['80814001 - 冻结 Uçları',
'13003106 - 冻结',
'80805004 - 萨纳伊·马基内莱里',
'13003144 - 托尔纳·马基内西',
'13003195 - 库帕斯']
text_predicted_probs 列按顺序包含这五个类别的预测概率。
[0.943, 0.018, 0.008, 0.006, 0.004]
因此,text_predicted_probs 中的第一个值是predicted_categories 中第一个类别的概率,依此类推。
pred_category_id 列显示来自另一个模型的预测类别 ID。我需要的是 pred_category_id 列中类别的预测概率。
我需要获取 Predicted_categories 列中 pred_category_id 的顺序,然后从 test_predicted_probs 列中获取其值。下图演示了我想要实现的目标:在此图中,我想要获取类别 13003106 的概率,它是列表中的第二项,其对应的概率值为 0.018。如果我们询问 Gemini 或其他高级模型,我们可能会在几秒钟内得到答案。但是,我想先自己做,然后再问Gemini。我们需要做什么:
