Local Mechanisms of Compositional Generalization in Conditional Diffusion
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
Software Defect Prediction using Autoencoder Transformer Model
由 AI-ML 驱动的质量工程方法使用 AI-ML 通过预测缺陷来增强软件质量评估。现有的机器学习模型难以应对噪声数据类型、不平衡、模式识别、特征提取和泛化等问题。为了应对这些挑战,我们开发了一种新模型,即基于自适应差分进化(ADE)的量子变分自编码器-变换器(QVAET)模型(ADE-QVAET)。 ADE 与 QVAET 相结合,获得高维潜在特征并保持顺序依赖性,从而提高缺陷预测的准确性。 ADE 优化增强模型...