Datumbox 机器学习框架 0.6.0 发布

Datumbox 机器学习框架的新版本已经发布!立即从 Github 或 Maven Central Repository 下载。有什么新东西?0.6.0 版本的主要重点是扩展框架以处理大数据、改进代码架构和公共 API、简化数据解析、增强文档并转向 […]

来源:DatumBox - 机器学习、统计和软件开发博客

Datumbox 机器学习框架的新版本已经发布!立即从 Github 或 Maven Central Repository 下载。

Datumbox 机器学习框架的新版本已经发布!立即从 Github 或 Maven Central Repository 下载。 Github Maven Central Repository

有什么新内容?

0.6.0 版本的主要重点是扩展框架以处理大数据,改进代码架构和公共 API,简化数据解析,增强文档并转向宽松的许可证。

0.6.0 版本

让我们详细了解此版本的变化:

  • 处理大数据:改进的内存管理和新的持久性存储引擎使框架能够处理几 GB 大小的大数据集。添加对 MapDB 数据库引擎的支持使框架能够避免将所有数据存储在内存中,从而能够处理大数据。默认的 InMemory 引擎经过重新设计,效率更高,而 MongoDB 引擎由于性能问题被删除。
  • 处理大数据 : MapDB
  • 改进和简化的框架架构:抽象级别显著降低,几个核心组件经过重新设计。特别是,持久性存储机制被重写,几个不必要的功能和数据结构被删除。
  • 改进和简化的框架架构:
  • 新的“类似 Scikit-Learn”公共 API:算法的所有公共方法都更改为类似于 Python 的 Scikit-Learn API(拟合/预测/转换范例)。新的公共方法更灵活、更简单、更易于使用。
  • 新的“类似 Scikit-Learn”公共 API:
  • 简化数据解析:新框架附带一组便捷方法,允许快速解析 CSV 或文本文件并将其转换为 Dataset 对象。
  • 简化数据解析 改进的文档: 新的 Apache 许可证: GNU 通用公共许可证 v3.0 Apache 许可证,版本 2.0 不向后兼容

    如何使用它

    详细安装指南 代码示例 使用 ing