详细内容或原文请订阅后点击阅览
如何使用合成数据构建投资组合项目
生成合成数据并使用AI构建机器学习投资组合项目。
来源:KDnuggets#简介
#查找现实世界数据集可能具有挑战性,因为它们通常是私人(受保护),不完整(缺少功能)或昂贵的(在付费墙后面)。合成数据集可以通过让您根据项目需求生成数据来解决这些问题。
合成数据是模仿现实生活数据集的人为生成的信息。您可以控制合成数据集的大小,复杂性和现实性,以根据您的数据需求来量身定制它。
在本文中,我们将探讨综合数据生成方法。然后,我们将通过检查数据,创建机器学习模型并使用AI来开发一个完整的投资组合项目来构建一个投资组合项目。
机器学习模型#如何生成合成数据
合成数据通常是使用模拟,规则或AI随机创建的。
//方法1:随机数据生成
//要随机生成数据,我们将使用简单的功能来创建值,而无需任何特定的规则。
这对于测试很有用,但不会捕获功能之间的现实关系。我们将使用Numpy的随机方法进行操作,并创建PANDAS数据框架。
随机方法 pandas dataframe导入numpy作为NP 导入大熊猫作为pd np.random.seed(42) df_random = pd.dataframe({ “ feature_a”:np.random.randint(1,100,5), “ feature_b”:np.random.rand(5),, “ feature_c”:np.random.choice([“ x”,“ y”,“ z”],5) })) df_random.head()
这是输出。
//方法2:基于规则的数据生成
基于规则的数据生成比随机数据生成更聪明,更现实。它遵循精确的公式或一组规则。这使输出有目的且一致。
在我们的示例中,房屋的大小与价格直接相关。为了清楚地表明这一点,我们将创建一个尺寸和价格的数据集。我们将定义与公式的关系:
价格=尺寸×300 +ε(随机噪声)
以这种方式,您可以在保持数据合理逼真的同时看到相关性。