摘要:在聆听未知语言时,听者可以学习音节之间的转换概率,并将经常同时出现的音节分组为一个整体。这种统计学习能力已被证明适用于学前婴儿和成人,即使在被动聆听时也是如此。在这里,我们使用脑电图 (EEG) 研究了统计学习是否发生在最低意识状态 (MCS) 患者和从最低意识状态 (EMCS) 中恢复的患者中。我们向参与者展示了一个等时音节序列,这些音节由 2 个单词的真实短语或 2 个单词的人工短语组成,这些短语由单词之间的转换概率定义。试验间相位一致性 (ITPC) 分析显示,与健康个体相比,EMCS 患者的短语速率 EEG 反应较弱,MCS 患者的减弱更为严重。尽管较弱,但 MCS 患者的短语速率反应或其谐波仍然具有统计学意义,这表明 MCS 患者的统计学习能力得以保留。意识水平下降时,词频反应也会减弱。然而,在阿尔法和贝塔波段,MCS 患者的词频反应谐波比 EMCS 患者更明显。结合之前的研究,目前的结果表明 MCS 患者保留了残余学习能力,这可能被用来诱导神经可塑性,并且不同的频带与意识水平存在不同的关系。关键词:统计学习、意识障碍、刺激锁定活动
每天,人们都会接触塑料,这是一种人造材料,可以在土壤、空气和水中存留数代,对人类、动物和环境的健康产生影响。社交媒体上关于塑料的跨国元叙事和个人故事有哪些——(1)大规模数字化图书语料库词频搜索、(2)社交视频共享网站、(3 和 4)两个社交图片共享网站、(5)众包在线百科全书、(6)社交网站、(7)微博网站和(8)基于与相关搜索词的时间关联进行的大规模搜索词分析?这项工作抽样了创新(可生物降解塑料、消耗塑料的细菌)、降低消耗、塑料收集和回收、清理倾倒塑料的海洋以及大规模公众意识的宏观故事。也有相反的说法,即高消费导致垃圾填埋场溢出、塑料倾倒在山上和河流中,以及人们体内出现微塑料。
这是自然语言处理 (NLP) 的第一门课程,完成本课程后,学生可以继续学习更高级的材料。在本课程中,我们将回顾机器学习 (ML) 的基础知识,例如回归与分类、预处理、ML 模型、过度拟合、欠拟合和评估。此外,我们还将学习自然语言处理的基础知识,例如词性、词形还原、词干提取、命名实体识别、停用词、依存关系解析、单词和句子相似性、标记化、预处理功能、词云、文本摘要、关键字搜索、词袋、TF-IDF(词频 - 逆文档频率)和余弦相似性。此外,我们将运用机器学习和自然语言处理 (NLP) 的知识,使用 ML 模型、NLTK、spaCy 和其他 Python 库来实现该领域的一些热门项目。
大量历时语料库的出现推动了越来越多的定量研究,这些研究针对语言的演变和意义的变化。本研究的核心量是文本中语言元素的标记频率,频率的变化反映了元素的流行程度或选择性适应度。然而,语料库频率可能会因各种原因而发生变化,包括纯粹的随机抽样效应,或者因为语料库由当代媒体和小说文本组成,其中的底层主题会随着文化和社会政治趋势而起伏不定。在本文中,我们引入了一个用于控制语料库中主题波动的简单模型——主题文化平流模型,并展示了它如何为词频随时间变化的变化提供可靠的基线。我们在跨越两个世纪的历时语料库和一个精心控制的人工语言变化场景中验证了该模型,然后用它来纠正历史时间序列中的主题波动。最后,我们利用该模型表明,新词的出现通常与热门话题的兴起相对应。这表明
摘要 摩托车在日常活动中发挥着重要作用。摩托车是印度尼西亚经常使用的交通工具之一。印度尼西亚使用的摩托车数量在不断增加。因此,摩托车问题的发生会影响社区活动并扰乱社会经济状况。由于摩托车问题可能随时发生,因此需要通过提供在线咨询平台采取预防措施。然而,需要一个分类模型来处理有关摩托车问题的广泛问题。通过将这些问题分类到特定的问题类别中,可以更快地将解决方案交付给消费者。在本研究中,我们开发了预测模型来对消费者问题进行分类。数据集是从消费者关于经常发生的摩托车问题的问题中收集的。该模型是使用两种机器学习算法开发的,即朴素贝叶斯和支持向量机 (SVM)。使用 n-gram 和词频-逆文档频率 (TF-IDF) 方法执行文本向量化。结果表明,采用单三元模型的SVM模型效果更佳,准确率和F值分别为0.910和0.910。
研究目的:本研究旨在揭示在线食品配送(OFD)共享经济中客户体验的根本属性。设计/方法/方法:从 Google Play 商店收集 45,116 条评论后,进行了语义网络分析。使用 Python 编程语言和文本挖掘从在线评论中提取关键字,进行频率分析,并使用 Ucinet 6.0 进行迭代相关关系的收敛 (CONCOR) 分析。研究结果:关键字“食物”、“订单”、“司机”和“应用程序”的频率和中心性最高。客户体验属性分为四个集群:“交付程序”、“OFD 平台”、“支付流程”和“金钱价值”。理论贡献/原创性:本研究使用语义网络分析对客户体验进行了相关且新颖的评估,应该在学术研究中得到更广泛的应用。东南亚背景下的管理意义:鉴于东南亚在线食品配送的预期增长以及与印度尼西亚的共同文化价值观,本研究的结果可能对制定在线食品配送企业共享经济的可持续发展战略具有重要意义。研究的局限性和意义:本研究仅收集了来自 Google Play 商店的在线客户评论,并且由于该方法侧重于词频,因此缺乏对单词附加含义的理解。
用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间所花费的人之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要混合方法来进行比较
用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要一种混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们预计,该基准将有助于促进开发新的强大技术,用于生物医学研究中的相关文章的标题和基于标题/摘要的搜索引擎。
用于查找相关文献的文档推荐系统主要依赖于十年前开发的方法。这主要是由于缺乏涵盖各种研究领域的大量离线相关文档黄金标准基准,因此无法比较、改进新开发的文献检索技术并将其转化为实践。为了克服这一瓶颈,我们成立了 RE 相关文献文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 列出的文章与其各自的种子(输入)文章的相关性。大多数注释均由经验丰富的种子文章原作者提供。收集的数据涵盖了所有唯一 PubMed 医学主题词描述符的 76%。在不同经验水平、研究领域或注释时间上均未观察到系统性偏差。更重要的是,不同科学家对同一文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们期望该基准将有助于促进开发用于生物医学研究相关文章的标题和基于标题/摘要的搜索引擎的新型强大技术。
用于查找相关文献的文档推荐系统主要依赖于十年前开发的方法。这主要是由于缺乏涵盖各种研究领域的大量离线相关文档黄金标准基准,因此无法比较、改进新开发的文献检索技术并将其转化为实践。为了克服这一瓶颈,我们成立了 RE 相关文献文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 列出的文章与其各自的种子(输入)文章的相关性。大多数注释均由经验丰富的种子文章原作者提供。收集的数据涵盖了所有唯一 PubMed 医学主题词描述符的 76%。在不同经验水平、研究领域或注释时间上均未观察到系统性偏差。更重要的是,不同科学家对同一文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们期望该基准将有助于促进开发用于生物医学研究相关文章的标题和基于标题/摘要的搜索引擎的新型强大技术。