生物序列最近的邻居搜索在生物信息学中起有趣的作用。减轻二次复杂性对常规距离计算的痛苦,神经距离嵌入(将项目序列置于几何空间中)已被公认为是有希望的范式。为了维持序列之间的距离顺序,这些模型所有部署三重态损失并使用直观方法来选择三胞胎的子集,以从广阔的选择空间中进行训练。但是,我们观察到,这种训练通常使模型只能区分一小部分距离顺序,从而使其他人未被认可。此外,天真地选择了更多的三胞胎进行最新的网络下的培训,不仅增加了成本,而且还增加了模型性能。在本文中,我们介绍了Bio-KNN:KNN搜索框架 - 生物序列的工作。它包括一种系统的三重态选择方法和一个多头网络,增强了所有距离订单的识别而不增加培训费用。最初,我们提出了一种基于聚类的方法,将所有三重态分为具有相似支持的几个群集,然后使用创新策略从这些群集中选择三胞胎。同时,我们注意到同一网络中同时培训不同类型的三胞胎无法实现预期的性能,因此我们提出了一个多头网络来解决此问题。我们的网络采用卷积神经网络(CNN)来提取所有群集共享的本地效果,然后分别学习一个分别为每个群集学习多层启示(MLP)头。此外,我们将CNN视为特殊的头部,从而将以前模型中忽略的关键特征整合到我们的模型中以获得相似性识别。广泛的实验表明,我们的生物KNN在两个大规模数据集上的最先进方法显着优于而没有增加培训成本。