我们在一系列儿童与照顾者之间英语互动的纵向语料库上训练了一个计算模型(基于块的学习器,CBL),以测试一种拟议的统计学习机制——后向转换概率——是否能够稳定准确地预测儿童在成长最初几年的言语表达。我们预测,随着儿童年龄的增长,该模型重建儿童言语表达的准确性会降低,因为儿童逐渐开始使用抽象形式而不是来自其言语环境中的特定“块”来生成言语。为了验证这个想法,我们在一系列纵向儿童语言语料库中最近遇到的和累积的言语输入上训练了该模型。然后我们评估了该模型是否能够准确地重建儿童的言语。控制话语长度和重复块的存在后,我们没有发现任何证据表明 CBL 重建儿童言语表达的能力会随着年龄的增长而降低。
摘要 — 在本研究中,我们介绍了我们参与 BioCreative VII 挑战赛的 DrugProt 任务的工作。药物-靶标相互作用 (DTI) 对于药物发现和重新利用至关重要,通常是从实验文章中手动提取的。PubMed 上有超过 3200 万篇生物医学文章,从如此庞大的知识库中手动提取 DTI 具有挑战性。为了解决这个问题,我们为 Track 1 提供了一个解决方案,旨在提取药物和蛋白质实体之间的 10 种相互作用。我们应用了一个集成分类器模型,该模型结合了最先进的语言模型 BioMed-RoBERTa 和卷积神经网络 (CNN) 来提取这些关系。尽管 BioCreative VII DrugProt 测试语料库中存在类别不平衡,但与挑战赛中其他提交的平均水平相比,我们的模型取得了良好的表现,微 F1 得分为 55.67%(BioCreative VI ChemProt 测试语料库为 63%)。结果显示了深度学习在提取各种类型 DTI 方面的潜力。
,QWURGXFWLRQ口语技术的域范围从语音输入和输出系统到复杂的理解和生成系统,包括具有广泛差异的复杂性(例如自动命令机)和多语言系统(例如自动对话和翻译系统)的多模态系统。对此类系统的标准和评估方法的定义涉及高度特定的口语语料库和词典资源的规范和开发,以及测量和评估工具。在开始时,这些领域的标准是从以前在许多欧洲和国家项目中建立的口语社区中的共识得出的,它参考了美国和日本的重要举措。主要是SAM项目(集中在组件技术评估和语料库创建上),SQALE(用于大型词汇系统评估)以及日d和Sundial和Sunstar(用于多模式系统)过去和现在的项目在评估和资源领域具有重要的产量,包括ARS,Relator,Onomastica和SpeechDat,以及德国的Verbmobil等主要国家项目和研究计划。
3AnangaéricDaniel(2011),“辍学类型:加纳辍学的维度和动态”,《国际教育发展杂志》,第1卷。31,n°4,pp。374-381。4 Kimitei Winbroder(2010),«肯尼亚小学女生过渡率的过渡率的决定因素:Keiyo District的案例»,教育,语料库ID:168533744。
摘要:使用功能性磁共振成像 (fMRI) 进行全脑神经成像可提供宝贵的数据,以在空间和时间上定位大脑活动。在这里,我们使用一个独特的语料库,其中包括 fMRI 和参与者与人类或对话机器人讨论时记录的行为。时间动态在研究对话时至关重要,但考虑到 fMRI 的时间分辨率,识别参与者的行为与大脑活动之间的关系在技术上具有挑战性。我们在此提出一种从语料库中提取神经生理和行为时间序列并分析其因果关系的方法。预处理包括从功能上定义明确的大脑区域构建离散的神经生理时间序列,以及从同步的原始音频、视频和眼动追踪记录中提取描述高阶行为的行为时间序列。第二步是应用机器学习模型,根据行为的各个方面预测大脑活动,同时了解所审查区域的功能作用。结果证明了行为的特殊性,可以预测大脑功能区域的活动。
本研究旨在对现有的基于模型的互操作性的方法进行详尽的审查,同时还提出了一个比较框架,以根据数字连续性的新挑战来评估这些方法。比较分析将在图1中概述的过程的每个阶段进行,主要关注识别关键方法并定义比较标准。从参考语料库传达结构化,半结构化或非结构化形式以及隐式知识的明确知识开始,对于“结构结构信息语料库”,尤其是必要的知识(Lezoche等人,2012年)至关重要(Lezoche等人,2012年),以确保互操作性,使不同的系统能够无缝地连接起来,尽管它们具有内在的差异,但它们可以无缝地工作。实现这一目标涉及解决技术,语义和组织挑战,并提出了各种方法和框架来组织互操作性所需的知识,以确保模型在整个开发过程中充当信息的主要信息载体。这些模型可以采用知识图,本体论或数据模型的形式。他们的定义可以通过各种方法来实现,并取决于
在Natu的语言任务中已经取得了重大进步,这在很大程度上归因于强大的大型语言模式(LLMS)的出现。这些模型已在充分和多样化的语料库中进行了预先培训,已经具有不可思议的能力理解语言的文化。尽管LLM大量用于许多高资源语言,但此类模型的可用性仍然是欧洲葡萄牙语的限制性。我们介绍了强大的欧洲葡萄牙解码器LLMGlória。为了预训练Glória,我们组装了一个全面的PT-PT文本语料库,其中包括来自各种来源的350亿个令牌。我们介绍了我们的训练方法,然后评估模型对多个下游任务的有效性。补充,为了评估我们的模型的语言模型功能,我们介绍了calame-pt(葡萄牙语的上下文意识语言建模评估),这是第一个葡萄牙零射击语言模型基准。评估表明,Glória在语言建模中显着超过现有的PT解码器模型,并且可以生成声音,知识丰富和相干的PT-PT文本。该模型还具有各种下游任务的强大潜力。1
摘要本文介绍了一项关于以中间法语编写的16世纪文档自动归一化的研究。这些文档提出了各种各样的单词形式,这些单词形式需要拼写归一化以促进下游语言和历史研究。我们将归一化过程作为机器翻译任务开始,从强大的基线开始利用预训练的编码器– DECODER模型。我们建议通过结合合成数据生成方法和生成人工培训数据来改善这一基线,从而解决与我们任务相关的平行语料库。对我们的方法的评估是双重的,除了依靠黄金参考的自动指标外,我们还通过其产出后评估我们的模型。这种评估方法直接测量了我们的模型给手动进行标准化任务的专家带来的生产力增长。结果表明,与从头开始使用自动归一化相比,使用自动归一化时,生产率每分钟增加了20多个令牌。由我们的研究产生的手动编辑的数据集是将公开发布的第一个正常化的16世纪中部法国人的平行语料库,以及合成数据以及在介绍的工作中使用和培训的自动归一化模型。
在当今的数字时代,大量数据无处不在,包括自然语言的话语,例如新闻文章,社交媒体帖子或论坛主题。数字人文学科旨在定性和定量分析此类数据。对于解释性研究,很难从大数据中受益。一个例子是扎根的理论,一种解释性方法,可以通过注释或编码来处理较大的数据集。但是,这种方法太耗时了,无法弥合从定性到定量分析的差距。在这项工作中,我们提出辅助方法,以半自动地将少量的手动注释扩展到大型语料库。我们的方法使用带注释数据的上下文化床位来发现类似的发生。通过交互式提供从用户交互中自动学习的建议,我们的方法提供了一种方便,快速的方式,以减少努力来注释大型语料库。该方法最终产生一个能够注释整个数据集的clas-sifier。我们对多个任务和数据集进行了实验,以评估我们的方法证明了强劲的性能。此外,我们为希望扩展基于注释的研究的研究人员设计了一个软件,将差距从定性到定量结果弥合了差距。
表征与自然对话有关的精确神经生理活性仍然是一个主要挑战。我们在本文中探讨了自然对话期间多模式对话行为与大脑活动之间的关系。这是由于功能磁共振成像(fMRI)时间分辨率以及记录的多模式信号的多样性而具有挑战性的。,当几个参与者与人类和对话式机器人发生自然对话时,我们使用了在fMRI实验期间记录的独特语料库。语料库包括fMRI响应以及由同步的原始音频及其笔录,视频和眼睛跟踪录音组成的对话信号。提出的方法包括从功能良好的大脑区域中提取离散神经生理时间序列的第一步,以及描述特定行为的行为时间序列。然后,使用机器学习模型来根据提取的行为特征来预测神经生理时间序列。结果显示出令人鼓舞的预测得分,并且在两种情况下的行为和功能性大脑区域的活动之间发现了特定的因果关系 - 即,人类和人类机器人对话。索引术语:多模式信号处理,自然转化,机器学习,人类和人机相互作用,功能性MRI
