摘要。肽疫苗提供了传统疫苗的安全且有效的替代品。它们的效率取决于疫苗中包含的肽以及主要组织相容性复合物(MHC)分子结合并呈现这些肽的能力。由于MHC等位基因的高度多样性,它们的不同肽结合特异性以及对肽疫苗构建体的最大长度的物理约束,选择了一组肽,这些肽可以有效地在大部分人群中实现免疫力,这是挑战性的。在这里,我们提出了Hogvax,这是一种选择最大化人口覆盖率的组合优化方法。Hogvax背后的关键思想是利用肽序列之间的重叠,以在有限的空间中包括大量肽,从而涵盖稀有的MHC等位基因。我们将疫苗设计任务形式化为理论问题,我们称之为最大评分k-superstring概率(MSK)。我们表明,MSK是NP-HARD,使用层次重叠图(HOG)将其重新制定为图形问题,并呈现MSK的单倍型变体,以考虑MHC基因座之间的链接不平衡。我们为图形问题提供了整数线性编程公式,并提供开源实现。我们在SARS-COV-2案例研究中证明了Hogvax设计的疫苗的出现含有比由共同催化的肽建立的疫苗序列要多的肽。我们预测超过98%的人口覆盖范围和大量的人类呈现的肽,从而对新的病原体或病毒变异产生了良好的免疫力。
最近的大型语言模型 (LLM),例如 ChatGPT,在提供特定指令时已经能够生成类似人类的流畅响应。在承认技术进步带来的便利的同时,教育工作者也担心学生可能会利用 LLM 完成写作作业并将其冒充为原创作品。尽管许多 AI 内容检测研究都是由于这种担忧而开展的,但大多数先前研究将 AI 内容检测建模为分类问题,假设文本要么完全由人类编写,要么完全由 AI 生成。在这项研究中,我们在一个很少探索但现实的环境中调查了 AI 内容检测,其中要检测的文本由人类和生成性 LLM 协作编写(为简单起见称为混合文本)。我们首先将检测任务形式化为从给定的混合文本中识别人类编写的内容和 AI 生成的内容之间的过渡点(边界检测)。我们通过从学生写的原始文章中随机删除部分句子,然后指示 ChatGPT 填写不完整的文章,构建了一个混合文章数据集。然后我们提出了一种两步检测方法,其中(1)在编码器训练过程中将 AI 生成的内容与人类编写的内容分开;(2)计算每两个相邻原型之间的距离(原型是嵌入空间中混合文本中一组连续句子的平均值),并假设两个相邻原型之间存在边界,这些原型彼此距离最远。通过大量实验,我们观察到以下主要发现:(1)所提出的方法在不同的实验设置中始终优于基线方法;(2)编码器训练过程(即上述两步方法的第一步)可以显着提高所提出方法的性能; (3)在检测单边界混合型文章的边界时,通过采用相对较大的原型大小(即计算原型所需的句子数量),可以增强所提出的方法,从而使域内评估的结果提高了 22%(相对于最佳基线方法),域外评估的结果提高了 18%。