染色体是生物体的遗传信息的载体,可以分为两种主要类型:同种异体体和常染色体。同种体,也称为性染色体,在性别决定和调节与性别相关的特征中起着至关重要的作用。尽管多样性相当多,但它们具有标准特征和基因含量和配对系统的差异。了解性染色体对于农业和疾病控制工作至关重要,在这种工作中,利用性别特异性特征的遗传方法表现出希望。但是,识别同种异体,尤其是在非模型生物中,带来了挑战。在这里,我们探索了监督的机器学习模型的使用,包括逻辑回归,随机森林,支持向量机和K-Nearest邻居,将基于全基因组测序数据基于全基因组测序数据的常染色体或同体分类。评估了覆盖,杂合性和GC含量等特征的预测能力。结果强调了特征组合和模型选择以进行准确分类的重要性。
主要关键词