BERT(来自 Transformers 的双向编码器表示)是 Google 于 2018 年底开发的一种强大工具,可让计算机处理、分析和“理解”人类语言。它已成为各种 NLP 应用的标准,例如问答、命名实体识别、自然语言推理和文本分类。以前,所有语言模型(即 Skip-gram 和连续词袋)都是单向的。它们只能从左到右或从右到左遍历单词的上下文窗口。BERT 使用双向语言建模来理解单词的上下文;即,该模型根据单词的所有周围环境来学习单词的上下文。
摘要 文本检索和语义分割的应用具有很大的潜力,可以改变法律研究行业的格局,使任何人都可以更轻松地获取和负担得起相关信息。在本工作论文中,我们介绍了一些新方法,作为人工智能法律援助 (2020) 的一部分,这是信息检索评估论坛-2020 的一个重要活动。在本文的第一部分,我们使用基于 BM 25、主题嵌入和 Law2Vec 嵌入的方法确定了所提供查询的相关先前案例和法规。对于第二部分,我们使用 BERT 将法律案件文件语义分割为七个预定义标签或“修辞角色”。在第一个任务中,我们在 P@10 和 BPREF 指标中的表现使我们位居前两名。另一方面,我们针对第二个任务的 BERT 实现获得了 .479 的宏精度,仅比表现最佳的方法低 .027。关键词 1 nlp、词嵌入、主题嵌入、bm25、先例检索、信息检索、法规检索、bert、修辞角色、分类、法律 1。介绍
Friedrich 2 , Fei Lee 3 , Bert van der Vegt 4 , Elisabeth GE de Vries 1 , Derk Jan A. de Groot 1
目的:本研究的目的是提出和评估一种基于机器学习(ML)基于机器学习(ML)的预测的混合方法,以估算压力水平及其从步骤计数数据中估算原因。该研究解决了现有数据集中缺乏有关压力根本原因的信息的差距。方法:步骤计数数据,压力评估(QID得分)和应力原因是从30位护士中收集的六个问卷,该问卷在一个月内以八天的八天内列出了4点李克特量表。设计了两个任务用于评估:(1)评估中间解释对压力存在估计准确性的贡献,以及(2)验证使用中间解释来识别压力原因。BERT模型。结果:在第一个任务中,具有中间解释的BERT达到了0.74的最高精度,使用原始步骤计数数据(0.63)和距离数据(0.59)优于BERT。在第二个任务中,同一模型的排名精度为0.60,而原始步骤计数数据为0.56。的显着关系。
本研究探讨了如何使用基于 Transformer 的模型(例如 BERT 和 DistilBERT)对 IMDb 电影评论进行情感分析。实验的目的是找到准确率和计算效率之间的平衡,评估两种模型在不同训练参数下的表现。BERT 在三个时期内达到了 91.39% 的峰值准确率,总共需要 54 分钟进行训练。另一方面,DistilBERT 仅用 38 分 25 秒就达到了 91.80% 的类似准确率。尽管准确率略有差异,但 DistilBERT 被证明是一种更高效的训练选择,因此成为资源有限环境的可行替代品。该研究结果与 R. Talibzade (2023) 的研究形成了对比,后者使用 BERT 获得了 98% 的准确率,但需要 12 小时的训练,说明了准确率和训练时间之间的平衡。未来可能的任务包括进一步完善、使用更大的数据集进行测试、研究替代的 Transformer 模型,以及利用更高效的训练方法来提高性能而不牺牲效率。这是一篇 CC BY-NC 许可下的开放获取文章
摘要全球诊断出的医疗状况最少的是抑郁症。已经证明,当前的抑郁症早期检测的经典程序不足,这强调了寻求更有效的方法克服这一挑战的重要性。最有希望的机会之一是在人工智能领域中引起的,因为基于AI的模型可能有能力提供快速,广泛访问,无偏见和有效的方法来解决此问题。在本文中,我们比较了三个不同数据集上的三种自然语言过程模型,即Bert,GPT-3.5和GPT-4。我们的发现表明,通过微调的BERT,GPT-3.5和GPT-4在从文本数据中识别抑郁症方面显示了不同水平的功效。通过比较诸如准确性,精确度和回忆等指标的模型,我们的结果表明,即使没有以前的微调,GPT-4都优于BERT和GPT-3.5模型,即使没有以前的微调,也可以在文本数据上使用其巨大的潜力来用于自动抑郁症检测。在本文中,我们介绍了新介绍的数据集,微调和模型测试过程,同时还解决了局限性并讨论了未来研究的进一步考虑。
摘要背景:本研究通过表达与理论驱动的心理风险因素在实时危机热线聊天中集成的机器学习(ML)模型的预测能力(ML)模型来解决自杀风险预测挑战。更重要的是,我们旨在了解有助于ML自杀风险预测的特定理论驱动因素。方法:数据集由17,654个危机热线聊天课程分类为自杀。我们创建了一个基于自杀风险因素的词典(SRF),其中涵盖了主要自杀理论的关键风险因素的语言表示。使用纳入SRF词典的自然语言处理技术对ML模型(自杀风险 - Bert; SR-Bert)进行了训练。结果:结果表明SR-Bert的表现优于其他模型。逻辑回归分析确定了与自杀风险相关的几个理论驱动的风险因素,杰出的风险是绝望的,自杀,自我伤害和受害的归属感。限制:词典完全涵盖所有理论
图2。使用BERT衍生特征与(a)预测和(b)材料属性分类的模型性能比较模型性能。SMA,Ti合金和HEA的10倍MAE图与广泛的平行测试中所选特征数量(1-8)的函数相同。蓝线使用传统的经验特征(例如电负性,原子半径)表示模型性能,而红线表示BERT衍生的材料特征。检查的特性包括相变温度(MP,AP),转化焓(ΔH),屈服强度(σs),终极拉伸强度(σb),Vickers硬度(VH)和伸长率(EL)。Classification tasks include binary classification of Solid Solution (SS) vs. Non-Solid Solution (NSS), ternary classification of phase forms (Face-Centered Cubic (FCC), Body-Centered Cubic (BCC), and FCC-BCC mixed), and quaternary classification of SMA phases (B19'-B2, B19'-B19-B2, B19'-R-B2, B19-B2, and R-B2)。bert衍生的特征始终在几乎所有属性和特征数量上产生较低的预测误差,从而突出了它们捕获合金组成和属性之间内在关系的卓越能力。阴影区域代表跨平行测试的标准偏差。