人工智能“检查”流行的聊天机器人

Patronus AI 平台可以检测大型语言模型准备的响应中的错误和不适当的材料。

来源:OSP网站大数据新闻

Startup Patronus 开发基于大型语言模型(包括 ChatGPT、Dall-E2 和 AlphaCode)的自动聊天机器人验证软件。该公司的工具使用专门准备的查询来检测综合响应中不一致和偏见、不准确和“幻觉”的表现。此外,Patronus 软件可以注意到较大的语言模型何时泄露敏感数据。

正如该公司所报告的那样,它开发的测试可以发现,即使是具有大上下文窗口(能够“记住”很长对话)并致力于解决问题的聊天机器人的响应中也存在很大比例的错误。有相关数据支持的原则。

Patronus 产品主要用于受到严格监管的行业,特别是医疗保健和金融。例如,Patronus FinanceBench 发现金融行业使用的许多大型语言模型都误解了公开的立法。

此外,不久前,流行的聊天机器人使用Patronus工具进行了版权侵权检查。测试工具要求数字对话者继续引用各种作品,询问一本书的第一章听起来像什么等问题。总共,每个聊天机器人被问了 100 个类似的问题。所有经过验证的平台均提供受版权保护的文本。