如何使用合成数据构建投资组合项目

生成合成数据并使用AI构建机器学习投资组合项目。

来源:KDnuggets
作者的图像| canva

#简介

查找现实世界数据集可能具有挑战性,因为它们通常是私人(受保护),不完整(缺少功能)或昂贵的(在付费墙后面)。合成数据集可以通过让您根据项目需求生成数据来解决这些问题。

合成数据是模仿现实生活数据集的人为生成的信息。您可以控制合成数据集的大小,复杂性和现实性,以根据您的数据需求来量身定制它。

在本文中,我们将探讨综合数据生成方法。然后,我们将通过检查数据,创建机器学习模型并使用AI来开发一个完整的投资组合项目来构建一个投资组合项目。

机器学习模型

#如何生成合成数据

合成数据通常是使用模拟,规则或AI随机创建的。

//方法1:随机数据生成

//

要随机生成数据,我们将使用简单的功能来创建值,而无需任何特定的规则。

这对于测试很有用,但不会捕获功能之间的现实关系。我们将使用Numpy的随机方法进行操作,并创建PANDAS数据框架。

随机方法 pandas dataframe
导入numpy作为NP
导入大熊猫作为pd
np.random.seed(42)
df_random = pd.dataframe({
    “ feature_a”:np.random.randint(1,100,5),
    “ feature_b”:np.random.rand(5),,
    “ feature_c”:np.random.choice([“ x”,“ y”,“ z”],5)
}))
df_random.head()

这是输出。

//方法2:基于规则的数据生成

基于规则的数据生成比随机数据生成更聪明,更现实。它遵循精确的公式或一组规则。这使输出有目的且一致。

在我们的示例中,房屋的大小与价格直接相关。为了清楚地表明这一点,我们将创建一个尺寸和价格的数据集。我们将定义与公式的关系:

价格=尺寸×300 +ε(随机噪声)

以这种方式,您可以在保持数据合理逼真的同时看到相关性。

  • 基线价格