摘要:机器学习领域的快速发展也带来了一些生存挑战,这些挑战本质上都与“信任”这一广义概念有关。这一广义概念的各个方面包括对任何机器学习过程输出的信任(以及防止黑匣子、幻觉等)。对科学的信任正受到威胁,尤其是现在法学硕士可以产生“好看的废话”,论文工厂的出现是为了应对当前研究环境中不正当的奖励制度。同一枚硬币的另一面是,如果机器学习得不到适当的控制,它也会突破安全和隐私障碍,违反 GDPR 以及其他道德、法律和社会障碍,包括公平性。此外,数据“某处”的存在绝不意味着其实际可重用性。这包括现已确立的 FAIR 原则的四个要素:许多数据即使找到也无法找到,在明确定义的条件下也无法访问,如果访问则无法互操作(第三方和机器无法理解),这导致绝大多数数据和信息无法重复使用,除非违反版权、隐私法规或隐含或明确支撑查询或深度学习算法的基本概念模型。现在,越来越多的数据也将被机器“独立”使用,所有这些挑战都将严重加剧。本次主题演讲将讨论“数据访问”相对于传统的“数据共享”(包含数据下载、传输和失去控制的内涵)如何减轻大多数(如果不是全部)传统“数据共享”的不良副作用。对于联合数据访问,数据应该从另一个意义上或角度来看是公平的,它们应该是“联合的、AI-Ready”的,以便访问算法可以回答与访问控制、同意、格式相关的问题,并且可以读取有关数据本身的丰富(公平)元数据,以确定它们是否“适合用途”和机器可操作(即公平数字对象或机器可操作单元)。“适合用途”的概念远远超出了(但包括)有关方法、质量、误差线等的信息。访问算法的所有操作的“不可变日志记录”至关重要,尤其是在使用“群体学习”中的自学习算法时。足以让我们忙上一阵子了。https://www.nature.com/articles/s41586-021-03583-3
“语义网”是对当前网络的扩展,其中的信息被赋予了明确的含义,使计算机和人类能够更好地合作。” T. Berners-Lee、J. Hendler、O. Lassila,《语义网》,《科学美国人》,2001 年 5 月