详细内容或原文请订阅后点击阅览
Datumbox 机器学习框架 0.7.0 发布
我很高兴地宣布,经过几个月的开发,Datumbox 的新版本已经发布!0.7.0 版本带来了多线程支持、针对不适合内存的数据集的快速基于磁盘的训练、一些算法增强和更好的架构。立即从 Github 或 Maven Central Repository 下载。有什么新东西?焦点 […]
来源:DatumBox - 机器学习、统计和软件开发博客我很高兴地宣布,经过几个月的开发,Datumbox 的新版本已经发布!0.7.0 版本带来了多线程支持、针对内存中无法容纳的数据集的快速磁盘训练、多项算法增强和更好的架构。立即从 Github 或 Maven Central Repository 下载。
Github Maven Central Repository有什么新东西?
0.7.0 版本的重点是最终为框架带来多线程支持,并使基于磁盘的训练超快。此外,它还为所有基于回归的算法、协同过滤模型和用于 NLP 应用程序的 N-grams 提取器带来了多项算法增强。框架的架构经过重新设计,将项目分成多个模块(请注意,主库的artifactId现在是datumbox-framework-lib)并简化其结构。最后,新版本带来了一些代码改进、以javadocs形式提供的更好的文档和改进的测试覆盖率。
版本 0.7.0 请注意,主库的artifactId现在是datumbox-framework-lib datumbox-framework-lib框架的0.7.0版本与0.6.x分支不向后兼容。这是因为需要进行大量重新开发才能添加新功能并改进和简化框架的架构。下面我将详细讨论新功能:
多线程支持
新框架比0.6.x分支快几倍。这是通过使用线程、对代码热点进行大量分析以及重写核心组件以实现非阻塞并发读/写来实现的。目前,所有可以并行化的算法都使用了线程,这是该框架支持的大多数模型。在训练和测试/预测期间都支持并行执行。