摘要 随着企业致力于增强和扩大其产品组合,技术机会发现 (TOD) 越来越受到关注。为了理解新兴技术在创新中的作用,我们引入了一种新的英语和日语技术市场语料库,并对技术与市场之间的联系进行了全面的实证评估。我们的数据集包括从 USPTO 数据库中提取的英文专利和从日本专利局 (JPO) 提取的日文专利,以及每家股票市场公司的相关产品。我们比较了几种静态和上下文化的词嵌入方法来构建技术市场空间,并提出了一种基于微调 BERT 模型的有效方法,用于将技术与市场联系起来。
人类语言最引人注目的特征之一是它们的极端变化。更加惊人的是,在统治其形式和功能的强烈代表性和认知规律的明显变化背后的存在:语言普遍性。我们在这里讨论我们小组的一些最新工作,其中大规模,数据密集型计算建模技术用于解决有关语言规律性的基本语言问题。在单词顺序区域中,我们在此处报告工作,这些工作利用大量单语和平行语料库数据来开发名词短语(通用20)和一般结构最小化原则的内部结构的计算模型。在事件持续时间的领域,我们报告的工作利用了深厚的相似性和表面差异来开发真正的跨语言自然语言处理工具。
摘要围绕社交媒体平台上气候变化的话语已成为理解公众情绪,观点和参与这个关键全球问题的重要途径。公开可用的数据集的不可用,再加上社交媒体平台上对气候话语的多范围分析,强调了这一领域进一步发展的必要性。为了解决这一差距,在本文中,我们对Twitter上气候变化话语的复杂领域进行了广泛的探索,利用了一个精心注释的Climaconvo数据集,其中包含15,309条推文。我们的注释包括丰富的范围,包括相关性,立场,仇恨言论,仇恨和幽默的方向,提供对话语动态的细微理解。我们解决了剖析在线气候讨论并详细介绍我们全面注释方法的固有的挑战。除了注释外,我们还对六个任务进行了各种算法的基准评估:相关检测,立场检测,仇恨言论识别,方向和目标以及幽默分析。该评估增强了我们对话语中情感波动和语言微妙的理解。我们的分析扩展到探索性数据检查,推出推文分布模式,立场流行和仇恨言论趋势。采用复杂的主题建模技术揭示了主题簇的基础,从而提供了对话语中编织的各种叙事线程的见解。这些发现为寻求浏览气候变化讨论的复杂性的研究人员,政策制定者和沟通者提供了宝贵的资源。本文的数据集和资源可在https://github.com/shucoll/climaconvo上获得。
利用富文本刺激的脑电图 (EEG) 数据集可以促进对大脑如何编码语义信息的理解,并有助于脑机接口 (BCI) 中的语义解码。针对包含中文语言刺激的 EEG 数据集稀缺的问题,我们提出了 ChineseEEG 数据集,这是一个高密度 EEG 数据集,并辅以同步眼动追踪记录。该数据集是在 10 名参与者默读两部著名小说中约 13 小时的中文文本时编制的。该数据集提供长时间的 EEG 记录,以及预处理的 EEG 传感器级数据和由预训练的自然语言处理 (NLP) 模型提取的阅读材料的语义嵌入。作为源自自然中文语言刺激的试点 EEG 数据集,ChineseEEG 可以显著支持神经科学、NLP 和语言学的研究。为中文语义解码建立了基准数据集,有助于脑机接口的发展,并有助于探索大型语言模型与人类认知过程的契合。它还可以帮助研究中文自然语言背景下的大脑语言处理机制。
1.2 挑战与影响 ARC 公开测试中,人类的平均表现准确率超过 60%[ 3 ]。相反,最有能力的模型利用 SOTA LLM[ 4 ] 也只能达到 50% 以下的准确率。考虑到大量的预训练数据,当前人工智能与人类之间的差距更加明显。对 ARC 竞赛解决方案的研究可以为我们对人类思维中的直觉和推理过程进行建模提供重要见解,促进新型人工智能范式的构建。同时,“[至少,解决 ARC-AGI 将产生一种新的编程范式[ 5 ]”,只需展示几个输入输出示例,就可以让没有编码经验的人进行程序合成。2 竞赛细节 数据集 ARC Prize 竞赛提供三个数据集:公共训练集、公共评估集和私有评估集。公共训练集和公共评估集均包含 400 个任务文件,而私有评估集包含 100 个任务文件。每个任务有 2 到 10 对(通常为 3 个)示例和 1 到 3 对(通常为 1 个)测试[2, 6]。指标 我们可以通过两种方法评估性能: 1)像素正确性 - 正确推断的像素占总数的百分比; 2)正确/不正确 - 推断的输出在形状、颜色和位置方面是否与任务的测试输出相匹配。竞赛使用第二种方法评估提交内容[6]。
模块 I。该模块旨在用于准备口译作业,包含四个主要功能:(i)语料库管理、(ii)词汇表管理、(iii)命名实体识别(NER)和(iv)自动文本摘要。语料库管理提供与语料库相关的不同功能:自动和用户辅助语料库编译(网络爬虫)、语料库上传和语料库查询(索引、右/左排序 KWIC、n-gram、模式、候选术语)。词汇表可以从语料库创建或手动编译。词典和词汇表管理允许用户创建、上传和删除词汇表,执行外部搜索以查找翻译等价物,或者使用机器翻译和后期编辑自动翻译术语。还可以自动创建多词术语的双语词汇表并通过外部搜索进行后期编辑。
抽象聚合物被广泛用于不同的领域,并且对提取和组织信息的有效方法的需求正在增加。使用机器学习的自动化方法可以准确地从科学论文中提取相关信息,从而为使用带注释的培训数据提供了一种有希望的解决方案,以自动化信息提取。在本文中,我们引入了一个与聚合物相关的本体论,该本体论具有至关重要的实体和关系,以增强聚合物科学领域的信息提取。我们的本体论是可以自定义的,以适应特定的研究需求。我们提出了Polynere,一种高品质的命名实体识别(NER)和关系提取(RE)语料库,其中包括使用我们的本体学注释的750个聚合物摘要。Polynere的独特特征包括多种实体类型,关系类别,对各种NER设置的支持以及在不同层面上主张实体和关系的能力。Polynere还通过支持证据来促进RE任务中的推理。我们的最新高级方法实验取得了令人有希望的结果,但挑战持续将NER和RE从摘要调整为全文段落。这强调了在聚合物域中需要强大的信息提取系统的需求,这使我们的语料库成为未来发展的宝贵基准。
大量历时语料库的出现推动了越来越多的定量研究,这些研究针对语言的演变和意义的变化。本研究的核心量是文本中语言元素的标记频率,频率的变化反映了元素的流行程度或选择性适应度。然而,语料库频率可能会因各种原因而发生变化,包括纯粹的随机抽样效应,或者因为语料库由当代媒体和小说文本组成,其中的底层主题会随着文化和社会政治趋势而起伏不定。在本文中,我们引入了一个用于控制语料库中主题波动的简单模型——主题文化平流模型,并展示了它如何为词频随时间变化的变化提供可靠的基线。我们在跨越两个世纪的历时语料库和一个精心控制的人工语言变化场景中验证了该模型,然后用它来纠正历史时间序列中的主题波动。最后,我们利用该模型表明,新词的出现通常与热门话题的兴起相对应。这表明
软件开发是一个持续、渐进的过程。开发人员不断以小批量而非一次性大批量的方式改进软件。小批量的高频率使得使用有效的测试方法在有限的测试时间内检测出错误变得至关重要。为此,研究人员提出了定向灰盒模糊测试 (DGF),旨在生成针对某些目标站点进行压力测试的测试用例。与旨在最大化整个程序的代码覆盖率的基于覆盖范围的灰盒模糊测试 (CGF) 不同,DGF 的目标是覆盖潜在的错误代码区域(例如,最近修改的程序区域)。虽然先前的研究改进了 DGF 的几个方面(例如电源调度、输入优先级和目标选择),但很少有人关注改进种子选择过程。现有的 DGF 工具使用主要为 CGF 定制的种子语料库(即一组覆盖程序不同区域的种子)。我们观察到,使用基于 CGF 的语料库限制了定向灰盒模糊测试器的错误查找能力。为了弥补这一缺陷,我们提出了 TargetFuzz,这是一种为 DGF 工具提供面向目标的种子语料库的机制。我们将此语料库称为 DART 语料库,它仅包含与目标“接近”的种子。这样,DART 语料库就可以引导 DGF 找到目标,从而即使在有限的模糊测试时间内也能暴露漏洞。对 34 个真实漏洞的评估表明,与基于 CGF 的通用语料库相比,配备 DART 语料库的 AFLGo(一种最先进的定向灰盒模糊测试器)可以发现 10 个额外的漏洞,并且平均在暴露时间上实现了 4.03 倍的加速。
软件开发是一个持续、渐进的过程。开发人员不断以小批量而非一次性大批量的方式改进软件。小批量的高频率使得使用有效的测试方法在有限的测试时间内检测出错误变得至关重要。为此,研究人员提出了定向灰盒模糊测试 (DGF),旨在生成针对某些目标站点进行压力测试的测试用例。与旨在最大化整个程序的代码覆盖率的基于覆盖范围的灰盒模糊测试 (CGF) 不同,DGF 的目标是覆盖潜在的错误代码区域(例如,最近修改的程序区域)。虽然先前的研究改进了 DGF 的几个方面(例如电源调度、输入优先级和目标选择),但很少有人关注改进种子选择过程。现有的 DGF 工具使用主要为 CGF 定制的种子语料库(即一组覆盖程序不同区域的种子)。我们观察到,使用基于 CGF 的语料库限制了定向灰盒模糊测试器的错误查找能力。为了弥补这一缺陷,我们提出了 TargetFuzz,这是一种为 DGF 工具提供面向目标的种子语料库的机制。我们将此语料库称为 DART 语料库,它仅包含与目标“接近”的种子。这样,DART 语料库就可以引导 DGF 找到目标,从而即使在有限的模糊测试时间内也能暴露漏洞。对 34 个真实漏洞的评估表明,与基于 CGF 的通用语料库相比,配备 DART 语料库的 AFLGo(一种最先进的定向灰盒模糊测试器)可以发现 10 个额外的漏洞,并且平均在暴露时间上实现了 4.03 倍的加速。