获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
数据表示为平均值和标准偏差。三个评分者的平均得分被视为任何类别的最终得分(例如,对于聊天机器人的流利度,将三个评分者的得分添加并除以三个)。对于特定情况的聊天机器人的总体得分,所有四个属性(流利,连贯性,准确性和相关得分均添加并除以四个)。每个LLM的最终得分也被转换为百分比(得分/4*100),此百分比在此手稿中称为完美。通过单向方差分析(ANOVA)比较了五个聊天机器人之间的分数。聊天机器人之间的一致性由类内相关系数(ICC)测试。我们使用GraphPad Prism 9.5.0(美国GraphPad Software Inc.)进行统计分析,并认为P值<0.05具有统计学意义。