详细内容或原文请订阅后点击阅览
一种测试AI系统如何分类文本
大型语言模型越来越统治我们的日常生活,因此检查其可靠性的新系统比以往任何时候都更为重要。
来源:MIT新闻 - 人工智能这部电影评论是狂欢还是锅?这个关于商业或技术的新闻故事吗?这个在线聊天机器人对话是否会转向提供财务建议?这个在线医疗信息网站是否会发出错误信息?
这类自动对话,无论是涉及寻找电影或餐厅评论还是获取有关您的银行帐户或健康记录的信息,都变得越来越普遍。比以往任何时候都通过高度复杂的算法(称为文本分类器)而不是人类进行了这种评估。但是,我们怎么能说出这些分类的真正准确性呢?
现在,麻省理工学院实验室的信息和决策系统(LID)的团队提出了一种创新的方法,不仅衡量了这些分类器的工作能力,而且更进一步并展示如何使它们更准确。
新的评估和补救软件是由LIDS的首席研究科学家Kalyan Veeramachaneni开发的,他的学生Lei Xu和Sarah Alnegheimish以及其他两个。任何想要使用它的人都可以免费下载该软件包。
测试这些分类系统的标准方法是创建所谓的合成示例 - 与已经被分类的句子非常相似。例如,研究人员可能会采取一个已经被分类器程序标记为好评的句子,看看是否在保留相同含义的同时更改单词或几个单词可能会欺骗分类器将其视为平底锅。或被确定为错误信息的句子可能会被错误分类为准确。这种欺骗分类器的能力使这些对抗性例子。
专家系统