在实际教育应用中,广泛需要对书籍级长文本进行可读性评估。然而,目前大多数研究都集中在段落级可读性评估,对超长文本的处理工作很少。为了更好地处理长序列的书籍文本并利用难度知识增强预训练模型,我们提出了一种新颖的模型 DSDR、难度感知片段预训练和难度多视图表示。具体来说,我们将所有书籍分成多个固定长度的片段,并采用无监督聚类来获得难度感知片段,这些片段用于重新训练预训练模型以学习难度知识。因此,长文本通过对具有不同难度级别的多个片段向量进行平均来表示。我们构建了一个新的儿童分级读物数据集来评估模型性能。我们提出的模型取得了令人满意的结果,优于传统的 SVM 分类器和几种流行的预训练模型。此外,我们的工作为书籍级可读性评估建立了一个新的原型,为未来相关研究提供了重要的基准。
2022 年 8 月 27 日 — 进行营、旅及更高级别参谋演习 (STAFFEX) 和指挥所演习。 (CPX)。支持迭代训练模型...
带有相关 Tensorflow* 或 PyTorch* 内核的 Jupyter* 笔记本,从源代码存储库克隆训练示例笔记本 (ipynb 文件),使用所选数据集训练模型并将训练好的模型上传到您选择的存储设施。通过“启动 Red Hat OpenShift Data Science”学习路径了解有关如何使用 Red Hat* OpenShift* Data Science 的更多信息。对于本教程中选择的示例,我们假设开发人员已完成此部分,并将训练好的 PyTorch* 肾脏分割模型上传到 AWS* S3 存储桶。为方便起见,我们以 OpenVINO™ 中间表示 (IR) 文件的形式为本练习提供预训练模型。有关说明,请参阅先决条件部分。2. 不同英特尔® 硬件上的 AI 模型推理利用了英特尔® 开发者云
摘要 我们描述了 OpenWebSearch 小组参与 CLEF 2024 QuantumClef IR 特征选择轨道的情况。我们提交的运行重点关注以下观察:学习排序模型中特征的重要性在更改训练设置时会发生变化并自相矛盾。为了解决这个问题并确定一个在不同的下游训练过程中具有鲁棒性的特征子集,我们通过在随机选择的特征子集上反复训练模型并在训练模型中测量它们的重要性来引导特征重要性得分。我们确实观察到特征重要性在不同的引导过程中差异很大,并且自相矛盾。我们假设量子退火器可以比模拟退火器更好地探索这种复杂的优化环境。然而,我们发现量子退火器并没有找到产生更有效的学习排序模型的更优解。
摘要:在药物发现过程中,确定最佳候选药物非常重要。生物学和计算科学领域的研究人员一直试图利用机器学习 (ML) 来有效预测药物-靶标相互作用 (DTI)。近年来,根据预训练模型在自然语言处理 (NLP) 中的新兴用途,人们正在为化合物和靶蛋白开发预训练模型。本研究试图使用 Transformers (BERT) 预训练模型 ChemBERTa 来改进化合物的 DTI 预测模型。预训练的特点是使用简化的分子输入线路输入系统 (SMILES)。我们还使用预训练的 ProBERT 来预测靶蛋白(预训练使用氨基酸序列)。BIOSNAP、DAVIS 和 BindingDB 数据库 (DB) 被用于(单独或一起)学习。最终模型由 ChemBERTa 和 ProtBert 以及集成的 DB 共同教授,与之前的模型相比,根据受试者工作特征曲线下面积 (AUC) 和精确召回率-AUC 值,提供了迄今为止最佳的 DTI 预测性能。使用对 13 对底物和代谢酶细胞色素 P450 (CYP) 的特定案例研究验证了最终模型的性能。最终模型提供了出色的 DTI 预测。由于药物和靶蛋白之间的现实世界相互作用预计会表现出特定的模式,因此使用 ChemBERTa 和 ProtBert 进行预训练可以教授此类模式。如果学习采用涵盖药物和靶蛋白之间所有关系的大型、均衡的数据集,学习此类相互作用的模式将提高 DTI 准确性。
仅使用超声图像来训练深度学习算法(称为从头开始训练)需要大量带标签的超声图像,因为深度学习算法的诊断性能会根据训练数据集的大小而提高 (11)。然而,由于人力和成本限制,可收集的数据量有限。此外,成功训练需要多少图像也是未知的。然而,有几种方法可以解决这一限制。其中一种流行的方法是迁移学习,它使用预先训练的模型,从而节省时间。预训练模型在大型基准数据集上进行训练,以解决与我们想要解决的问题类似的问题。例如,Inception 是最流行的模型之一,并使用 ImageNet 数据库进行预训练,该数据库包含超过 120 万张日常生活中常见物品的图像。使用预训练模型比训练整个深度学习算法层更有效率,尽管数据集不包含医疗图像或包含超声图像 (12)。
时间序列的预训练提出了一个独特的挑战,因为预训练和目标域之间可能存在不匹配,例如时间动态的变化、快速演变的趋势以及长期和短期周期效应,这可能会导致下游性能不佳。虽然领域自适应方法可以缓解这些变化,但大多数方法都需要直接来自目标域的示例,这使得它们对于预训练来说不是最优的。为了应对这一挑战,方法需要适应具有不同时间动态的目标域,并且能够在预训练期间无需看到任何目标示例即可做到这一点。相对于其他模态,在时间序列中,我们期望同一示例的基于时间和基于频率的表示在时频空间中位置靠近。为此,我们假设时频一致性 (TF-C)——将示例的基于时间的邻域嵌入到靠近其基于频率的邻域——对于预训练是可取的。受 TF-C 启发,我们定义了一个可分解的预训练模型,其中自监督信号由时间和频率分量之间的距离提供,每个分量都通过对比估计单独训练。我们在八个数据集上评估了新方法,包括电诊断测试、人体活动识别、机械故障检测和身体状态监测。针对八种最先进方法的实验表明,TF-C 在一对一设置(例如,在 EMG 数据上微调 EEG 预训练模型)中平均比基线高出 15.4%(F1 分数),在具有挑战性的一对多设置(例如,对 EEG 预训练模型进行微调以进行手势识别或机械故障预测)中高出 8.4%(精度),反映了现实世界应用中出现的场景广度。源代码和数据集可在https://github.com/mims-harvard/TFC-pretraining获得。
摘要:脑肿瘤是最致命的疾病之一,对人类健康有许多影响。脑肿瘤是脑内或脑周围的异常细胞团或生长。它们并非都是癌症,因为它们可能是良性的或恶性的。医生使用各种诊断技术来评估良性或恶性脑肿瘤的存在,以及估计其大小、位置和生长速度。使用适当的诊断方式来提供完整的大脑视图以检测任何异常。应对脑部进行计算机断层扫描 (CT) 扫描以检查异常。CT 扫描的好处包括准确检测钙化、出血和骨骼细节,以及与磁共振成像 (MRI) 相比成本低。因此,我们研究了一种基于 CT 的检测方法,以确定是否存在脑肿瘤。所提出的方法适用于从曼苏拉大学医院收集的 CT 图像数据集。使用不同的预训练模型:VGG-16、ResNet-50 和 MobileNet-V2。对比结果,预训练模型 MobileNet-V2 尽管参数数量最少,但结果却更好。它的准确率为 97.6%,而其精确度、召回率和 F1 分数分别为 96%、95% 和 96%。