详细内容或原文请订阅后点击阅览
人工智能“检查”流行的聊天机器人
Patronus AI 平台可以检测大型语言模型准备的响应中的错误和不适当的材料。
来源:OSP网站大数据新闻Startup Patronus 开发基于大型语言模型(包括 ChatGPT、Dall-E2 和 AlphaCode)的自动聊天机器人验证软件。该公司的工具使用专门准备的查询来检测综合响应中不一致和偏见、不准确和“幻觉”的表现。此外,Patronus 软件可以注意到较大的语言模型何时泄露敏感数据。
正如该公司所报告的那样,它开发的测试可以发现,即使是具有大上下文窗口(能够“记住”很长对话)并致力于解决问题的聊天机器人的响应中也存在很大比例的错误。有相关数据支持的原则。
Patronus 产品主要用于受到严格监管的行业,特别是医疗保健和金融。例如,Patronus FinanceBench 发现金融行业使用的许多大型语言模型都误解了公开的立法。
此外,不久前,流行的聊天机器人使用Patronus工具进行了版权侵权检查。测试工具要求数字对话者继续引用各种作品,询问一本书的第一章听起来像什么等问题。总共,每个聊天机器人被问了 100 个类似的问题。所有经过验证的平台均提供受版权保护的文本。