人工智能扫描互联网获取信息

信息提取,或者说对以纯文本形式存储的数据元素进行自动分类,是人工智能研究的主要课题之一。上周计算语言学协会召开了一次会议。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

信息提取,或者说对以纯文本形式存储的数据元素进行自动分类,是人工智能研究的主要课题之一。上周计算语言学协会召开了一次会议。

它赞扬了麻省理工学院研究人员的工作,他们提出了一种新的信息提取方法,彻底颠覆了传统的机器学习。

大多数机器学习系统都会梳理大量材料,寻找与人类指定的分类器相匹配的模式。例如,人们可以标记一组文本中的词性,机器学习系统将尝试识别解决歧义的模式,例如英语“她”何时是宾语,何时是形容词。

在这种情况下,通常,他们会尝试向机器提供最大量的数据。相比之下,麻省理工学院的研究人员在他们的新工作中使用少量数据来训练系统,因为在给定的训练场景中很难访问这些数据,这总体上增加了系统处理困难问题的机会。 。但有限的信息被​​研究人员认为是一个容易解决的问题。

该研究的领导者、电气和计算机工程教授 Regina Barzilay 指出,机器提取自然语言信息的过程传统上与人们在这种情况下所做的不同。 “当你读到一篇你看不懂的文章时,你会怎么做?你正在互联网上寻找另一种易于理解的方法。”

然后尝试从新文本中提取相关数据并将其与之前获得的结果进行比较。如果置信度分数仍然太低,她会转到下一个文本,依此类推。