详细内容或原文请订阅后点击阅览
通过加密哈希和以太坊区块链确保数据完整性
将区块链原语应用于数据集版本控制、出处和完整性保证《使用加密哈希和以太坊区块链确保数据完整性》一文首先出现在《走向数据科学》上。
来源:走向数据科学科学工作流程中,团队通常需要访问保持完全同步且无法修改的共享数据集,例如,在多个团队依赖完全相同的功能集的分布式机器学习环境中。
在本文中,我将介绍一种简单、免费的方法,用于对任意大小的数据集进行加密哈希处理,并将其哈希值不可变地存储在以太坊区块链上,从而创建数据集完整性的永久且可验证的记录。
该方法还可以简单地扩展到模型权重、需要以一致的方式应用的特定转换、源代码或其他需要不可变和可验证的数据。
🤔为什么诚信很重要
如果您至少对数据科学实践有所了解,那么您已经意识到数据完整性的重要性。即使输入数据中的微小变化或错误也可能导致项目崩溃。
现代机器学习模型对其训练数据极其敏感。缺少标准化步骤、修改的 CSV 文件、打乱的行、损坏的特征或训练和验证数据集之间的不匹配可能会产生截然不同的结果。
完整性故障很难检测,而且常常会导致脱轨。
模型可能仍能正常运行或训练,但指标可能会缓慢退化、漂移累积或实验无法重现。当团队分布在不同组织(可能跨不同组织)并且需要处理同一问题的不同版本时,完整性就显得尤为重要。
🔐使用加密哈希作为“真相来源”
加密哈希为我们提供了一种简单且非常有用的机制来验证数据完整性。
加密哈希简介
哈希函数接受任意数量的输入数据(字节)并确定性地生成固定长度的输出,称为哈希或摘要。您很可能已经意识到,加密哈希是计算机科学的基础。
关键是确定性:
相同的数据输入 → 相同的哈希输出
