Datumbox 机器学习框架版本 0.8.0 发布

Datumbox Framework v0.8.0 已经发布,并包含几个强大的功能!此版本带来了新的预处理、特征选择和模型选择算法、新的强大存储引擎,可以更好地控制模型和数据帧的保存/加载方式、几个预先训练的机器学习模型以及大量内存和速度改进。立即从 Github 下载 […]

来源:DatumBox - 机器学习、统计和软件开发博客

Datumbox Framework v0.8.0 已发布,包含多项强大功能!此版本带来了新的预处理、特征选择和模型选择算法、新的强大存储引擎(可更好地控制模型和数据框的保存/加载方式)、多个预训练的机器学习模型以及大量内存和速度改进。立即从 Github 或 Maven Central Repository 下载。

Github Maven Central Repository

新存储引擎

0.8.0 版本的主要目标之一是改进框架的存储机制,并使所有受支持的算法都可以进行基于磁盘的训练。新的存储引擎可以更好地控制模型的持久化方式和时间。一个重要的变化是,fit() 方法完成后,模型不会自动存储,而是需要显式调用 save() 方法并提供模型名称。这样,我们不仅可以丢弃更简单的临时算法而无需经过序列化阶段,还可以保存/加载数据框:

Configuration configuration = Configuration.getConfiguration();Dataframe data = ...; //在此处加载数据框MaximumEntropy.TrainingParameters params = new MaximumEntropy.TrainingParameters();MaximumEntropy model = MLBuilder.create(params, getConfiguration());model.fit(data);model.save("MyModel"); //使用特定名称保存模型model.close();data.save("MyData"); //使用特定名称保存数据data.close();data = Dataframe.Builder.load("MyData", configuration); //加载数据model = MLBuilder.load(MaximumEntropy.class, "MyModel", configuration); //加载模型model.predict(data);model.delete(); //删除模型
Configuration configuration = Configuration.getConfiguration(); //从属性文件中获取 confconfiguration.setStorageConfiguration(new InMemoryConfiguration()); //使用内存引擎//configuration.setStorageConfiguration(new MapDBConfiguration()); //使用 MapDB 引擎
mapDBConfiguration.directory