Using a Local LLM as a Zero-Shot Classifier
使用本地托管的 LLM 将杂乱的自由文本数据分类为有意义的类别的实用管道,无需标记的训练数据。使用本地 LLM 作为零样本分类器的帖子首先出现在走向数据科学上。
Кодификация отечественной робототехники
俄罗斯标准局批准对全俄经济活动类型产品分类器 (OKPD 2) 和全俄经济活动类型分类器 (OKVED 2) 进行修改,为工业机器人和数控设备提供单独的代码。
Bootstrapping Sign Language Annotations with Sign Language Models
人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据,但仅保留部分注释,因此未得到充分利用,部分原因是这种规模的注释成本过高。在这项工作中,我们开发了一个伪注释管道,以签名视频和英语作为输入,并输出一组可能的注释的排名,包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自...的稀疏预测
You Don’t Need Many Labels to Learn
如果无监督模型只需少量标签就可以成为强大的分类器,结果会怎样?《你不需要学习很多标签》一文首先出现在《走向数据科学》上。
ProVenTL:用于预测来自蛇毒的肽-蛋白质相互作用用于癌症治疗的迁移学习框架摘要肽-蛋白质相互作用(PepPI)的准确预测对于推进基于肽的抗癌药物设计至关重要。在本研究中,我们介绍了 ProVenTL,这是一种计算机辅助分子设计框架,它利用迁移学习和蛋白质语言模型嵌入来增强 PepPI 预测的准确性和可解释性。探索了两种互补策略:(i) 使用 Calloselasma rhodostoma 毒液肽和癌症相关蛋白的精选数据集对来自蛋白质数据库 (PDB) 的大规模 PepPI 数据进行预训练的 CAMP 模型,以及 (ii) 将 ProtT5 嵌入与堆叠自动编码器深度神经网络 (SAE-DN