用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要一种混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们预计,该基准将有助于促进开发新的强大技术,用于生物医学研究中的相关文章的标题和基于标题/摘要的搜索引擎。
用于查找相关文献的文档推荐系统大多依赖于十年前开发的方法。这主要是因为缺乏一个涵盖各种研究领域的大型离线黄金标准相关文献基准,以便可以比较、改进新开发的文献检索技术并将其转化为实践。为了克服这个瓶颈,我们成立了 RE 相关文献搜索联盟,该联盟由来自 84 个国家的 1500 多名科学家组成,他们共同注释了超过 180,000 篇 PubMed 收录文章与其各自的种子(输入)文章的相关性。大多数注释都是由经验丰富的种子文章原作者提供的。收集到的数据涵盖了 76% 的所有唯一 PubMed 医学主题词描述符。在不同经验水平、研究领域或注释时间之间未观察到系统性偏差。更重要的是,不同科学家对相同文档对的注释高度一致。我们进一步表明,用于生成推荐文章以供评估的三种代表性基线方法(Okapi Best Matching 25、词频 - 逆文档频率和 PubMed 相关文章)具有相似的总体性能。此外,我们发现这些方法各自倾向于生成不同的推荐文章集合,这表明可能需要一种混合方法来完全捕获所有相关文章。位于 https://relishdb.ict.griffith.edu.au 的已建立数据库服务器可免费下载注释数据和盲测新方法。我们预计,该基准将有助于促进开发新的强大技术,用于生物医学研究中的相关文章的标题和基于标题/摘要的搜索引擎。
基于人工智能的数据科学的发展不仅正在改变自然科学的研究方法,也正在改变工商管理、社会学、历史和文学等人文学科的研究方法。在这些领域,视频、照片、图片、文字等各种媒体元素的数字化以及大数据、人工智能等最新技术的应用也日益趋势明确。数据科学是一门研究领域,它运用统计学、数学和信息科学的概念来解释数据中的模式并获得看待事物的新方式和做出判断的能力。通过统计分析方法可以进行精确的分析,颠覆传统观念并产生意想不到的发现,年轻研究人员和学生的研究质量和成果超越了经验丰富的专家的现有研究。例如,在社会学和文学领域,人们尝试利用回归分析、时间序列分析、主成分分析等各种统计方法来分析各种数据之间的关系,这些尝试超越了以前积累的研究质量。 企业营销、金融机构投资等社会活动都以数据为基础。金融领域特别是投资领域雇佣了很多自然语言处理专家,研究中也进行实证分析。他们将口头语言(例如公司高管的声明)简化为数据并进行分析。首席执行官在盈利公告期间所说的话可以提供有用的数据,而从中读出的情绪可以成为公司超额利润的来源。大众媒体、广告和娱乐领域的从业人员也往往具有文科背景,而这些领域的从业人员传统上受到义务、人情、体力和运气等无形因素的影响。但随着人工智能的进步,人们可以从SNS上的话题和帖子中理解并积累用户属性信息,缩小目标范围,并展示新闻和广告。 在音乐领域,已经出现了使用自然语言分析来分析J-POP和动漫歌曲歌词的定量研究。本文对《光之美少女》系列的16首歌曲的歌词进行数字化处理,并进行词法分析,从词频、特征词等角度探究歌词的特征。基于动漫主题曲是为了反映本文内容而创作的前提,我们认为对主题曲的分析将有助于分析主要故事的内容。
摘要:本研究使用机器学习,利用 EEG 信号自主执行听力测试(听力测定)过程。在标准听力测试中,给受试者提供不同幅度和波长的声音,这些声音是通过 MATLAB GUI 设计的界面随机分配的。受试者表示,他听到了用耳机听到的随机大小的声音,但如果没有听到,他就不会采取行动。同时,跟踪 EEG(脑电图)信号,并记录受试者注意和未听到的声音在大脑中产生的波。对测试结束时生成的 EEG 数据进行预处理,然后进行特征提取。将从 MATLAB 接口接收到的听到和未听到的信息与 EEG 信号相结合,确定受试者听到了哪些声音,没有听到哪些声音。在通过界面给出的声音之间的等待期间,不会给受试者提供任何声音。因此,这些时间在 EEG 信号中标记为未听到。本研究使用 Brain Products Vamp 16 脑电图仪测量脑信号,然后使用 Brain Vision Recorder 程序和 MATLAB 创建脑电图原始数据。在从大脑中听到和未听到的声音产生的信号数据创建数据集之后,使用 PYTHON 编程语言进行机器学习过程。使用 Python 编程语言获取用 MATLAB 创建的原始数据,在完成预处理步骤之后,将机器学习方法应用于分类算法。每个原始脑电图数据都通过 Count Vectorizer 方法检测。使用 TF-IDF(词频-逆文档频率)方法计算所有脑电图数据中每个脑电图信号的重要性。根据人们是否能听到声音对获得的数据集进行分类。在分析中应用了朴素贝叶斯、光梯度强化机 (LGBM)、支持向量机 (SVM)、决策树、k-NN、逻辑回归和随机森林分类器算法。我们研究中选择的算法之所以受到青睐,是因为它们在 ML 中表现出色,并成功分析了 EEG 信号。所选分类算法还具有可在线使用的特点。使用了朴素贝叶斯、光梯度强化机 (LGBM)、支持向量机 (SVM)、决策树、k-NN、逻辑回归和随机森林分类器算法。在 EEG 信号的分析中,光梯度强化机 (LGBM) 被评为最佳方法。确定预测最成功的算法是 LGBM 分类算法的预测,成功率为 84%。这项研究表明,也可以使用 EEG 设备检测到的脑电波进行听力测试。虽然可以创建完全独立的听力测试,可能需要听力学家或医生来评估结果。
Bentin, S., Mouchetant-Rostaing, Y., Giard, MH, Echallier, JF, & Pernier, J. (1999). 不同心理语言学水平上处理印刷文字的 ERP 表现:时间进程和头皮分布。认知神经科学杂志,11 (3),235 – 260。https://doi.org/10. 1162/089892999563373 Binder, JR, Desai, RH, Graves, WW, & Conant, LL (2009). 语义系统在哪里?对 120 项功能神经影像学研究的批判性回顾和荟萃分析。大脑皮层,19 (12), 2767 – 2796。https://doi.org/10.1093/cercor/bhp055 Boersma, P., & Weenink, D. (2018)。Praat:用计算机进行语音学研究。检索自 http://www.praat.org/ Brysbaert, M., Buchmeier, M., Conrad, M., Jacobs, AM, Bölte, J., & Böhl, A. (2011)。词频效应:回顾德语中频率估计选择的最新发展及其影响。实验心理学,58 (5), 412 – 424。https://doi.org/10。 1027/1618-3169/a000123 Cattaneo, Z.、Pisoni, A. 和 Papagno, C. (2011)。经颅直流电刺激布罗卡区可改善健康个体的语音和语义流畅性。神经科学,183,64 – 70。https://doi.org/ 10.1016/j.neuroscience.2011.03.058 Chouinard, PA、Whitwell, RL 和 Goodale, MA (2009)。侧枕叶和下额叶皮层在命名视觉呈现的物体时发挥着不同的作用。 Human Brain Mapping,30 (12),3851 – 3864。https://doi.org/10.1002/hbm.20812 Costafreda, SG、Fu, CHY、Lee, L.、Everitt, B.、Brammer, MJ 和 David, AS (2006)。对言语流畅性的 fMRI 研究的系统评价和定量评估:左下额叶回的作用。Human Brain Mapping,27 (10),799 – 810。https://doi.org/10.1002/hbm.20221 de Zubicaray, GI 和 Piai, V. (2019)。研究言语产生的空间和时间成分。《牛津神经语言学手册》。牛津:牛津大学出版社。 Devlin, JT、Matthews, PM 和 Rushworth, MFS (2003)。左下前额皮质的语义处理:功能性磁共振成像和经颅磁刺激相结合的研究。认知神经科学杂志,15 (1),71 – 84。https://doi.org/ 10.1162/089892903321107837 Duecker, F. 和 Sack, AT (2013)。刺激前假 TMS 有助于目标检测。PLoS One,8 (3),e57765。https://doi.org/10.1371/journal.pone.0057765 Epstein, CM、Lah, JJ、Meador, KJ、Weissman, JD、Gaitan, LE 和 Dihenia, B. (1996)。磁脑刺激侧向言语抑制的最佳刺激参数。神经病学,47 (6),1590 – 1593。https://doi.org/10.1212/WNL.47.6.1590 Epstein, CM, Meador, KJ, Loring, DW, Wright, RJ, Weissman, JD, Sheppard, S., … Davey, KR (1999)。经颅磁刺激期间言语停止的定位和特征。临床神经生理学,110 (6),1073 – 1079 https://doi.org/10.1016/S1388-2457(99)00047-4 Fiez, JA (1997)。语音学、语义学和左下前额皮质的作用。人脑映射,5,79 – 83 https://doi.org/10. 1002/(SICI)1097-0193(1997)5:2<79::AID-HBM1>3.0.CO;2-J Flitman, SS, Grafman, J., Wassermann, EM, Cooper, V., O'Grady, J., Pascual-Leone, A., & Hallett, M. (1998)。重复经颅磁刺激过程中的语言处理。神经病学,50 (1),175 – 181。https://doi.org/10.1212/WNL.50.1.175 Gough, PM、Nobre, AC 和 Devlin, JT (2005)。通过经颅磁刺激分离左下额叶皮质的语言过程。神经科学杂志,25,8010 – 8016。https://doi.org/ 10.1523/JNEUROSCI.2307-05.2005 Grogan, A.、Green, DW、Ali, N.、Crinion, JT 和 Price, CJ (2009)。第一和第二语言中语义和音位流畅能力的结构相关性。大脑皮层,19,2690 – 2698。https://doi.org/10。 1093/cercor/bhp023 Groppa, S., Werner-Petroll, N., Münchau, A., Deuschl, G., Ruschworth, MFS, & Siebner, HR (2012). 一种新颖的双位点经颅磁刺激范式,用于探测来自同侧的快速促进输入