mingkwai原型,“中文计算的起源”,在斯坦福大学找到了家

一位教授和学生合作揭示了超过100万秒的合同的免费,公开访问的数据集,首次实现了合同语言的系统分析。

来源:斯坦福新闻

斯坦福法学院教授朱利安·尼亚科(Julian Nyarko)称合同为“经济的无形基础设施”。但是尽管如此,他们仍然很难在总体上访问和学习。

Julian Nyarko

斯坦福法学院的一个新项目正在改变这一点。

nyarko,与斯坦福大学的学生彼得·阿德尔森(Peter Adelson)一起,BS/MS ’17,JD/MBA ’25,最近公布了物料合同语料库(MCC),这是一项最初访问的,可公开访问的数据集,该数据集包含了由公共公司与美国证券公司(Insupities and Company and Companies)提交的100万个以上合同,该公司在2000年和200年之间,将MCC在2000年和202年之间进行了MCCS之间的投资。机器可读的数据集,使合同语言的系统经验分析既可能又可以易于访问。与提供有限访问合同数据的专有工具不同,MCC完全开放且免费使用。

材料合同语料库

学者,从业者和政策制定者的宝库

Nyarko自2016年以来一直在开发MCC,最初依靠他的自学成才的编码技巧来从SEC的Edgar系统中提取和组织合同数据。 AI的最新进展,再加上阿德尔森的计算机科学经验,使该项目在过去的一年中取得了迅速的势头。

虽然上市公司提出的协议在技术上可以为任何人提供,但它们通常被埋葬在展览中,标记不一致,并以使系统分析变得困难的方式。 MCC解决了这些挑战,提供了一个干净,可搜索的界面,用户可以通过该接口探索几十年来跨部门,交易类型和管辖区的合同实践。协议类型是标准化的,党派的标准化,并将元数据标记为精确检索。

斯坦福大学以人为中心的AI(HAI) 最近的论文 分解偏见:在可概括的修剪策略的范围内 阿德尔森(Adelson),他是Nyarko的一名学生