近 年 来 , 预 训 练 语 言 模 型 已 逐 渐 成 为 自 然 语 言 处 理 领 域 的 基 座 模 型 。 相 关 实 验 现 象 表 明 , 预 训 练 语 言 模 型 能 够 自 发 地 从 预 训 练 语 料 中 学 到 一 定 的 语 言 学 知 识 、 世 界 知 识 和 常 识 知 识 , 从 而 在 知 识 密 集 型 任 务 上 获 得 出 色 的 表 现 ( AlKhamissi et al., 2022 ; Safavi and Koutra, 2021 ; Petroni et al., 2019 ) 。 然 而 , 预 训 练 语 言 模 型 中 的 知 识 隐 式 地 存 储 在 参 数 之中 , 难 以 显 式 地 对 预 训 练 语 言 模 型 中 的 知 识 进 行 分 析 和 利 用 。 同 时 , 预 训 练 语 言 模 型在 知 识 和 推 理 上 的 表 现 并 不 可 靠 , 常常 会 出 现 “ 幻 觉 ” 现 象 ( Ji et al., 2022 ) , 给 出 与 知 识 冲 突 的 预 测 结 果 。 这 些 因 素 阻 碍 了 预 训 练 语 言 模 型 提 供 可 靠 的 知 识 服 务 。 因 此 , 探 究 模 型 掌握 知 识 的 机 理 、 研 究 如 何 提 取 和 补 充 语 言 模 型 中 的 知 识 成 为 近 期 的 研 究 热点 。 本 次 讲 习 班 主 要 内 容 包 括 预 训 练 语 言 模 型 中 的 知 识 分 析 、 预 训 练 语 言 模 型 的 知 识 萃 取 、 知 识 增 强 的 预 训 练 语 言 模 型 三个 部 分 , 听 众 将 在 本 次 讲 习 班 中了 解 到 近 期 研 究 中 对 预 训 练 语 言 模 型 掌握 知 识 情 况 的 认识 、 从 预 训 练 语 言 模 型 中 提 取 符 号 知 识 的 实 现 方 案 、 利 用 外 部 知 识 增 强 模 型 弥 补 缺 陷 的 各 类 方 法 。
1。引言语言和扫盲技能的发展是基础教育的基石。然而,国家对教育进步评估的经验结果强调了现实:美国37%的四年级学生没有证明阅读能力与年级的期望相符(Irwin等人,2022)。扫盲基础是在关键的幼儿园和幼儿园时期建立的,在那里孩子们发展了诸如语音意识和信件知识之类的识字能力(Bus and van Ijzendoorn,1999年)。因此,这些早期发展阶段需要集中注意力和资源来促进语言增长。为了增强学习经验并利用这些进步,在教育空间中使用系统已变得司空见惯(Williams等人,2013年),但技术进步仍然必须解决一个重大障碍:当代的自动语音识别技术的表现不足,任务是为儿童的反应得分(Dutta等人,2022; Yeung and Alwan,2018年)。自动产生的儿童语音转录的容易出错的性质对他们整合到教育应用中构成了重大挑战。,1997; P´aez等。,2007年; Snow等。,2007年)。然而,综合儿童的语音数据库的显着稀缺性仍然存在于该领域,尤其是在纵向数据集中。,2022; Safavi等。,2012年; Yeung and Alwan,2018年)。,2018年; Kory等。研究的重点是幼儿园年龄的儿童强调了该年龄段的专门量身定制ASR系统的必要性,因为在Pre-K和幼儿园水平上开发的语音学和字母知识等识字能力可以支持识字技能的发展(Biemiller和Slonim,Slonim,Slonim,2001; Fishman and Pinkerman,2003; Hart et;这些纵向资源对于调查语言发展和精炼以儿童为中心的自动语音识别和说话者识别系统是无价的(Dutta等人。通过跟踪同一儿童,研究人员可以绘制语言获取的轨迹。这种理解可以指导专门针对儿童言语不断发展的特征的系统和技术的开发。(Yeung和Alwan,2019年)。纵向数据还促进了通过提供有关儿童语音模式如何发展,支持个性化学习环境和儿童手机互动等领域的应用程序的见解,从而促进了专门针对儿童声音的教育应用的发展。要有效地从儿童那里收集数据,研究人员必须设计涉及孩子体验的数据收集机制。社会机器人,具有交互式吸引儿童的能力,具有在临床和教育环境中实施这些数据驱动的见解的巨大潜力(Kanero等人,2013年; Westlund and Breazeal,2015年)。jibo被用来为幼儿园,幼儿园和一年级的儿童管理一系列结构化和半结构化任务。机器人可以促进针对各种目标的有针对性活动,包括评估语音发展和语音习得,以及加强发音技能。利用社会机器人的互动功能,Jibo(Spaulding and Chen,2018年),本文介绍了两年内收集的新颖的儿童演讲数据集。这些任务包括字母和数字标识以及说明任务。数据集的纵向组件,其中一部分参与者返回后续记录,促进了儿童言语中对发展轨迹的分析。作为较大的人类机器人相互作用(HRI)研究的一部分,评估了Yeung等人在课堂环境中社会机器人的有效性。(2019b),Yeung等。(2019a),Tran等。(2020),Johnson等。 (2022b)和Johnson等。 (2022a),本文对数据集的集合进行了全面讨论,包括设计注意事项和记录条件。(2020),Johnson等。(2022b)和Johnson等。(2022a),本文对数据集的集合进行了全面讨论,包括设计注意事项和记录条件。