我们在整个模型培训和开发过程中进行了评估,包括在启动模型之前进行的最终扫描。在以下评估中,我们测试了各种方法,以最佳在给定类别中的功能,包括自定义脚手架和在相关的情况下提示。生产模型的确切性能数可能会因最终参数,系统提示和其他因素而有所不同。我们使用标准的引导程序来计算PASS的95%置信区间,该步骤为每个问题重新示例尝试以近似度量的分布。默认情况下,我们将数据集视为固定的,仅重新采样尝试。虽然广泛使用,但此方法可能会低估非常小的数据集的不确定性,因为它仅捕获采样方差而不是所有问题级方差。换句话说,此方法解释了模型在多次尝试(采样差异)的相同问题上的随机性,而不是问题难度或通过率(问题级别差异)的变化。这可能会导致过度紧密的置信区间,尤其是当问题的通过率接近0%或100%而几乎没有尝试时。我们报告这些置信区间,以反映评估结果的固有变化。在审查了准备评估的结果后,安全咨询小组[3]将深层研究模型归类为总体中等风险,包括中等的网络安全风险,说服力,CBRN,模型自治。这是模型第一次被评为网络安全风险。
主要关键词