欧盟自 2019 年以来一直在实施其数据战略。1 面向工业的数据单一市场的一个关键组成部分是建立“可互操作的数据空间”以“汇集关键行业的欧洲数据”,在这个市场中“数据可以在欧盟内部和跨行业流动,造福所有人”、“欧洲规则 […] 得到充分尊重”并且“数据访问和使用规则公平、实用和明确”。欧盟委员会(2022 年)描述了一个初步的、相当粗略的概念,包括如何建立和运营这些数据空间,包括相关立法(另见 Nagel 和 Lycklama,2021 年)。该文件还列出了一些针对制造业、交通、医疗、金融、能源、农业和技能等行业的“官方”欧盟数据空间。由数字欧洲计划 (DEP) 2 中的采购合同资助的欧洲通用语言数据空间 (LDS) 就是这些官方欧盟数据空间之一。 3
摘要 — 我们分析了自然语言处理和计算机视觉机器学习中使用的数据集大小的增长,并使用两种方法进行推断;使用历史增长率和估算未来预测计算预算的计算最佳数据集大小。我们通过估算未来几十年互联网上可用的未标记数据的总存量来研究数据使用量的增长。我们的分析表明,高质量语言数据将很快耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的存量要晚得多才会耗尽;2030 年至 2050 年之间(低质量语言)和 2030 年至 2060 年之间(图像)。我们的研究表明,如果数据效率没有大幅提高或没有新的数据源可用,依赖海量数据集的 ML 模型不断增长的当前趋势可能会放缓。
研究人员将这些有偏见的结果归因于用于训练 AI 模型的数据。AI 系统本质上反映了其训练数据集中存在的模式。当这些数据集来自具有历史或社会不平等的来源时,AI 系统可能会复制甚至放大这些不平等,从而导致决策偏差。例如,如果过去的招聘数据或广义语言数据由于长期存在的社会特权而偏向白人或男性候选人,AI 模型将在其推荐中吸收并延续这种偏见,导致对这些群体的候选人产生不公平的偏好。
通过使用AI分析语言数据,研究有关语言获取和学习外语的知识可以提供研究。Moritz Dittmeyer博士是哲学家和物理学家。他在歌德实验室语言中为歌德学院工作,并为学习语言开发AI应用程序。“我们去年开发了印加人。这是一位智能更正助手,他支持教师对生产写作任务的更正和评估。inka具有自己的集成语音模型。校正助手接受了各种机械和深度学习方法的培训。为此,我们使用了一百万个文本数据。收集到的培训评论和更正截然不同。您并不总是完全可用。通过新的培训数据,预测越来越好。 ”
这样,高 SNR 麦克风可以特别增强用于短命令识别的各种生成式 AI 模型:在所谓的唤醒词检测等简单任务中,特定的词会激活设备,如“Alexa”或“Hey Siri”——高 SNR 提供独特的信号,实现快速响应和可靠激活。对于复杂任务,所谓的“大型语言模型 (LLM)”,例如那些为语音助手提供支持的模型,可以使用语言上下文来解释低质量音频。经过大量语言数据训练,它们整合了文本、音频和视觉效果,利用上下文,使语音转文本更加健壮。这些 LLM 擅长识别意图,即使在音频不完美的情况下也是如此。最后,边缘 AI 模型(在本地设备上运行的 AI,“在边缘”)也特别受益于高 SNR,因为它可以清晰地理解命令。
标题:零资源的神经机器翻译使用基于半监督和监督学习的方法指示语言。摘要:零资源的神经机器翻译使用半监督和无监督学习的方法指示语言,”旨在开发具有非常有限或没有可用语言资源的指示语言的翻译模型。该项目利用半监督和无监督的学习技术来训练神经机器翻译模型,为资源不足的指示语言提供跨语性通信。最终,这项研究试图通过为缺乏广泛语言数据的语言提供翻译能力来弥合语言障碍并促进包容性。金额:Rs.42,40520持续时间:2 Yeras pi:Deepa Gupta博士(班加罗尔),Co-Pi:Premjith B博士,Susmitha Vekkot博士(Bangalore)
将动态现实的人类行为纳入人口规模的计算模型一直是挑战。虽然一些努力从社会科学中利用了行为理论,但已有验证的理论专门应用于基于代理的建模仍然有限。现有方法缺乏一个全面的框架来建模人类认知和选择的适应性本质。为了应对这些挑战,本文提出了一个新颖的框架,心理上的生成代理。这些代理由一种认知体系结构组成,该认知架构提供了数据驱动的和认知约束的决策功能,以及生成类似人类语言数据的大语言模型。此外,我们的框架是一种自然语言处理技术的立场检测,它允许在基于代理的建模模拟中基于现实世界数据的高度个性化初始化代理。这种组合提供了一种灵活但结构化的方法,以内源性表示人们如何看待,故意和对社交或其他类型的复杂决策动态做出反应。以前的工作通过使用我们提出的体系结构的组件的子集证明了有希望的结果。我们的方法有可能表现出高度现实的人类行为,并且可以在各个领域(例如公共卫生,群体动态,社会和心理科学以及金融市场)中使用。
摘要 在产品开发项目中,管理不断增长的需求是一项耗时且高度复杂的活动。随着近几十年来人工智能 (AI) 的兴起,算法现在能够支持需求工程 (RE) 任务。算法智能处理自然语言数据的能力以及在 RE 中的应用已得到广泛发表。然而,在已建立的 RE 流程中,通常不清楚在哪里可以使用人工智能算法。结果是最先进的人工智能算法与其在实际 RE 流程中的应用率之间存在显著的不平衡。原因之一是,当前的 RE 流程模型无法传达识别合适任务所需的信息。因此,本文旨在提供一个具有面向数据处理的视角的有限和标准化流程步骤框架,可用于系统地识别 RE 流程中可以应用人工智能算法的点。通过该框架的标准化流程步骤,可以抽象和表达已建立的 RE 流程,使其与人工智能算法的范围兼容。由于标准化流程步骤数量有限,因此可以构建适用于已定义流程步骤的 AI 算法库,以便有效评估其适用性。所提出的框架是在与行业参与的研究项目中合作开发的。