我们考虑在马尔可夫决策过程中学习,在马尔可夫决策过程中,我们没有明确地赋予重新功能,但是我们可以在这里遵守专家,以展示我们想学习的任务。此设置在应用程序(例如驾驶任务)中很有用,很难写下明确的奖励功能,以准确地指定应如何交易不同的desiderata。我们认为专家试图最大程度地发挥奖励功能,该奖励功能可作为已知功能的线性组合,并给出了一种学习专家所展示的任务的算法。我们的al-gorithm基于使用“逆增强学习”来试图恢复未知的奖励功能。我们表明,我们的算法终止了少数迭代,即使我们可能永远无法恢复专家的奖励功能,算法的策略也将达到与专家接近的绩效,在此,在此,相对于Expt exptt的未知奖励函数,在这里可以衡量。
反事实解释通过指出将导致替代性,期望的结果的方案来阐明算法决策。深入了解模型的行为,他们暗示用户采取可能的行动,并为决策提供理由。作为实现这些目标的关键因素,反事实必须是合理的,即描述数据歧管中现实的替代方案。本文利用了最近开发的生成建模技术 - 对抗随机森林(ARFS) - 以模型 - 不合Snostic的方式有效地产生了合理的反事实。ARF可以用作合理性措施或直接产生反事实解释。我们的基于ARF的方法超过了旨在产生合理的反事实解释的现有方法的局限性:易于训练和计算高效,自然而然地处理连续和分类数据,并允许以直接的方式整合诸如稀疏之类的其他DeSiderata。
4月XX 2021,班加罗尔:Ujjivan小型金融银行今天宣布与金融技术合作伙伴Desiderata Impact Ventures Private Limited(ProgCap)合作,用于端到端数字化发票的融资服务和贷款服务,用于从微型,中小型企业(MSME)中的小型和中型工厂(MSME)单位提供的小型企业,以寻求小型企业的小型商业企业。与这种合作伙伴关系,Ujjivan SFB冒险进入了贷款供应链融资的新途径,该银行将通过该途径,通过该途径,该银行将通过短期透支设施为从公认的品牌购买的购买商和子交易商提供资金。通过ProgCap的数据驱动技术平台数字化了整个贷款过程,从潜在客户生成,潜在客户筛查,贷款制裁,文件执行以及登机和还款的客户登机和偿还。
HELM 不同于传统的评估,后者侧重于一个特定的场景或指标,以更好地提高透明度。过去的评估可能会评估模型对用户社交媒体评论的毒性进行分类的准确程度。虽然有用,但这对于应该满足许多要求的多用途语言模型来说是不够的。在上述假设中,还应该评估模型回答问题和总结文档的能力。而且我们应该要求的不仅仅是准确性:模型对某些人口统计数据的表现不应该比其他人口统计数据差,并且当它不知道正确答案时应该表达不确定性。应对更广泛的用例和需求空间使研究人员和政策制定者能够全面了解模型。
算法追索性是一个利用反事实解释的过程,而不仅仅是理解系统产生给定的分类的原因,还可以为用户提供他们可以采取的行动来改变其预测结果。现有的计算此类干预措施的方法(称为追索权)确定了一组满足某些Desiderata的点 - e.g。对基本因果图的干预,最大程度地减少成本函数等。需要对基本模型结构的广泛了解,这在几个领域中通常是不切实际的信息。我们提出了一个数据驱动和模型不合时宜的框架来计算反事实解释。我们介绍了步骤,这是一种计算上有效的方法,它沿数据歧管沿着数据歧管递增步骤,该步骤将用户指导用户达到所需的结果。我们表明,该步骤独特地满足了一组理想的公理。此外,通过彻底的经验和理论调查,我们表明,在沿着重要指标沿着重要指标的流行方法胜过可证明的鲁棒性和隐私保证。
机器学习技术越来越多地用于高风险决策,例如大学录取,贷款归因或累犯预测。因此,至关重要的是,确保人类用户可以审核或理解所学的模型,不要创建或再现歧视或偏见,并且不会泄露有关其培训数据的敏感信息。的确,可解释性,公平性和隐私是负责任的机器学习开发的关键要求,在过去的十年中,这三者进行了广泛的研究。但是,它们主要被孤立地考虑,而在实践中,它们相互相互作用,无论是积极还是负面的。在本次调查文件中,我们回顾了有关这三个Desiderata之间相互作用的文献。更确切地说,对于每种成对相互作用,我们总结了认同的协同作用和紧张局势。这些发现突出了几种基本的理论和经验性冲突,同时还指出,当一个人旨在保留高水平时,共同考虑这些不同的要求是具有挑战性的。为了解决这个问题,我们还讨论了可能的调解机制,表明仔细的设计可以成功处理实践中这些不同的问题。
两种强化学习(RL)算法的Desiderata是从相对较少的经验学习和学习概括到一系列问题规格的政策的能力的能力。在有方面的状态空间中,实现这两个目标的一种方法是学习状态抽象,这仅保留学习手头的任务的必要变量。本文介绍了因果分配模型(CBM),该方法可以了解每个任务的动力学和奖励功能中的因果关系,以得出最小,特定于任务的抽象。CBM利用并改进了隐式建模,以训练可以在同一环境中所有任务重复使用的高保真因果动力学模型。对操纵环境和DeepMind Control Suite的经验验证表明,CBM学到的隐式动力学模型比显式的因果关系模型更准确地识别了基本的因果关系和状态抽象。此外,派生的状态抽象允许任务学习者在所有任务上实现近门槛级别的样本效率和表现优于基础线。
两种强化学习(RL)算法的Desiderata是从相对较少的经验学习和学习概括到一系列问题规格的政策的能力的能力。在有方面的状态空间中,实现这两个目标的一种方法是学习状态抽象,这仅保留学习手头的任务的必要变量。本文介绍了因果分配模型(CBM),该方法可以了解每个任务的动力学和奖励功能中的因果关系,以得出最小,特定于任务的抽象。CBM利用并改进了隐式建模,以训练可以在同一环境中所有任务重复使用的高保真因果动力学模型。对操纵环境和DeepMind Control Suite的经验验证表明,CBM学到的隐式动力学模型比显式的因果关系模型更准确地识别了基本的因果关系和状态抽象。此外,派生的状态抽象允许任务学习者在所有任务上实现近门槛级别的样本效率和表现优于基础线。
尽管取得了重大进展,对可解释人工智能的评估仍然难以捉摸且具有挑战性。在本文中,我们提出了一个细粒度的验证框架,该框架不会过度依赖这些社会技术系统的任何一个方面,并且承认其固有的模块化结构:技术构件、面向用户的解释性工件和社交通信协议。虽然我们同意用户研究对于从特定部署环境中的被解释者的角度评估解释呈现和交付策略的质量和有效性非常有价值,但底层的解释生成机制需要一种单独的、以算法为主的验证策略,以考虑其(数字)输出的技术和以人为本的要求。这种全面的基于社会技术效用的评估框架可以系统地推理可解释人工智能系统所组成的不同构件的属性和下游影响——考虑到其多种工程和社会方面——考虑到预期的用例。
逆增强学习(IRL)是一种模仿学习的政策方法(IL),使学习者可以在火车时间观察其行动的后果。因此,对于IRL算法,有两个看似矛盾的逃亡者:(a)防止阻塞离线方法的复合误差,例如诸如避免克隆之类的方法,并且(b)避免了强化学习的最坏情况探索复杂性(RL)。先前的工作已经能够实现(a)或(b),但不能同时实现。在我们的工作中,我们首先证明了一个负面结果表明,没有进一步的假设,没有有效的IRL算法可以避免在最坏情况下避免复杂错误。然后我们提供了一个积极的结果:在新的结构条件下,我们将奖励态度不足的政策完整性称为“奖励”,我们证明有效的IRL算法确实避免了犯错的错误,从而为我们提供了两个世界中最好的。我们还提出了一种使用亚最佳数据来进一步提高有效IRL算法的样本效率的原则方法。