拉脱维亚大学数学与计算机科学学院 (IMCS UL) 的人工智能实验室 (AI Lab) 成立于 1992 年,从事自然语言处理 (NLP) 和机器学习 (ML) 的研究。这两个研究方向密切相关,通过与行业合作伙伴共同实施大量创新项目以及通过国际合作,这两个方向获得了显著的推动。AI Lab 特别关注跨语言的自然语言理解 (NLU) 和生成 (NLG),结合基于知识的方法和机器学习方法。我们在 NLU 方面的工作包括语音识别、从非结构化文本和录音以及图像和视频数据中提取信息和构建知识图谱。NLG 方面的工作包括从数据和抽象含义表示生成文本,以及文本到语音的合成。我们在 NLU 和 NLG 的几个方向和方面进行研究:• 语音转文本识别和文本转语音
机器学习的进步最近使超现实主义的散文、图像、音频和视频数据(称为 AI 生成媒体)的合成成为可能。这些技术为创造与个人数字形象的互动提供了新的机会,这些形象可以激发我们的灵感和好奇心。AI 生成的角色形象可以合成任何人的面孔、身体和声音,从虚构人物到历史人物,甚至是已故的家庭成员。虽然迄今为止,这项技术的负面用例占据了讨论的主导地位,但从这个角度来看,我们强调了 AI 生成角色的新兴正面用例,特别是在支持学习和福祉方面。我们展示了一个易于使用的 AI 角色生成流程来实现这样的结果,并讨论了道德影响以及包括可追溯性以帮助维护对生成媒体的信任的必要性。展望未来,我们预见生成媒体将成为不断发展的人机交互领域的重要组成部分。
这种类型的攻击不仅限于图像,还可能影响文本,音频或视频数据。在面部识别系统中,对抗性攻击的一个众所周知的例子是,对照片的微小改动可以阻止该系统准确地识别个人,从而构成了重大的网络安全威胁[2]。此外,这些攻击对敏感部门的AI应用具有相当大的风险,例如以人类观察者似乎正常但被系统误解的方式改变交通信号,可能导致灾难性的决策[3]。此外,这些攻击可能会超越安全和运输到医疗保健系统。如今,许多医疗保健系统依靠AI来分析医疗数据并做出诊断决定。 但是,如果这些系统受到对抗性攻击,则可以操纵诊断结果,从而导致患者的不适当治疗[4]。如今,许多医疗保健系统依靠AI来分析医疗数据并做出诊断决定。但是,如果这些系统受到对抗性攻击,则可以操纵诊断结果,从而导致患者的不适当治疗[4]。
数据重播是图像的成功增量学习技术。它通过保留原始或合成的先前数据的储存库来防止灾难性的遗忘,以确保模型在适应新颖概念的同时保留过去的知识。但是,它在视频域中的应用是基本的,因为它只是存储了框架以进行动作识别。本文首次探讨了视频数据重播技术的递增动作分割,重点是动作时间段。我们提出了一个时间连贯的动作(TCA)模型,该模型代表使用生成模型而不是存储单个帧的动作。捕获时间连贯性的调节变量的集成使我们的模型了解随着时间的流逝的作用进化。因此,TCA为重播产生的动作段是多种多样的,并且在时间上是连贯的。在早餐数据集上的10任任务增量设置中,与基准相比,我们的AP可以显着提高准确性高达22%。
IHS Markit | Technology通过分析过去15年监控摄像头的年度出货量,预计截至2019年底全球投入使用的摄像头数量为7.7亿颗,未来两年安装的摄像头数量将达到10亿颗以上[1]。基于人脸和车辆算法的人工智能已经在公安、交通等各个领域得到广泛应用。人工智能如何应用于智能交通行业是一个新的研究方向。目前,桥梁、岛、隧道的养护都是通过各种传感器和视频数据进行人工判断。随着桥梁行业的快速发展,各种传感器被快速部署,想要实现人工识别难度极大。随着人工智能技术的进步,特别是计算机视觉技术和神经网络技术的进步,人工智能辅助工程师对桥梁各种传感器数据和视频监控进行研判的可能性已经显现出来。但与此同时,云端AI模型在桥梁场景中的应用也暴露出一些问题,例如数据隐私、网络带宽限制、对时延的苛刻要求等。
抽象视频数据提供了对社会过程的重要见解,因为它们可以直接观察现实生活中的社会互动。尽管此类数据变得丰富且越来越容易访问,但它们对尺度和测量构成了挑战。计算机视觉(CV),即基于软件的视觉材料分析可以帮助解决这些挑战,但是现有的CV工具并不适合针对分析社交互动的量身定制。我们描述了我们的新颖方法“ 3D社会研究”(3DSR),该方法使用简历和3D摄像机素材研究运动学和亲近,这是社会互动的两个核心要素。使用八个脚本化行动和五个现实生活中的街道场景视频的视频,我们通过促进一系列可扩展和精确的测量来展示3DSR如何扩展社会学家的分析工具包。我们特别强调了3DSR的物理距离,空间运动和运动速率的潜力 - 运动学和相互作用中的重要方面。使用3DSR时,我们还评估了数据可靠性。
基于无人机的运动目标跟踪技术被广泛应用于自动巡检、应急处置等诸多领域。现有的运动目标跟踪方法通常存在计算量大、跟踪效率低的问题。受限于无人机平台的算力,基于无人机平台采集的视频数据对多目标进行实时跟踪分析是一项艰巨的任务。本文提出了一种针对无人机实时跟踪任务的带记忆的特定目标滤波跟踪(TSFMTrack)方法,该方法包括用于捕捉目标外观特征的轨迹滤波模块(TFM)和用于每帧边界框关联的轨迹匹配模块(TMM)。通过在流行的MOT和UAV跟踪数据集上与其他SOTA方法的实验比较,TSFMTrack在准确性、计算效率和可靠性方面表现出明显的优势。并且将TSFMTrack部署在类脑芯片Lynchip KA200上,实验结果证明了TSFMTrack在边缘计算平台上的有效性以及适合无人机实时跟踪任务。
视频人工智能系统的成本和收益如何?视频人工智能:初始成本和长期收益 投资人工智能是许多公司经常谈论的事情。但您实际上投资的是什么?成本是多少?长期收益是什么?在本白皮书中,我们将解释如何以及为何投资视频人工智能。 为什么要投资视频人工智能?主要原因是视觉图像包含非常重要的数据。通过使用这些数据,您可以作为一家公司脱颖而出,目标是为您的客户提供更好的解决方案。 通过投资视频人工智能 (Video AI),您可以从视频数据中获得正确的智能信息。简而言之,人工智能 (AI) 以高度智能的方式识别、分类和索引镜头。在此基础上,可以搜索、编辑和量化收集和分类的数据。人工智能软件实时处理视频数据,以便您可以在发生检测警报时快速评估和响应。此外,可以轻松检索现有视频片段。因此,您可以快速搜索数千小时的镜头以查找所需的事件。当 AI 系统识别、分类和索引素材时,会产生额外的数据。从长远来看,这些收集到的元数据可以成为有价值的商业智能的额外来源。可以使用各种商业智能工具清晰地以图形方式显示这一点。当您考虑实施视频 AI 系统时,重要的是要正确评估总购置成本。换句话说,就是总拥有成本 (TCO)。当然,这些成本会根据每个组织的独特需求和情况而有所不同。本白皮书将概述系统要求、基础设施、网络和实施方面的各种实施因素和相关成本考虑因素。以及该产品可以提供的巨大长期节省。系统要求视频 AI 是一种智能软件技术,但为了使软件正常运行,外围设备必须到位。提前清楚了解所需的系统要求非常重要。IP 摄像机的数量、所需的 AI 功能以及安装类型(本地、远程或云)的组合决定了所需的系统要求。一些视频 AI 平台易于与已安装的 IP 摄像机结合使用。在销售过程中提出这一点很重要,因为它会影响初始投资。一个好的视频 AI 实施合作伙伴可以就所需的硬件为您提供建议。为了达到预期的效果,确定摄像机的类型和摄像机的位置非常重要。基础设施视频 AI 解决方案的基础设施因需求而异。有些人希望为多个位置提供集成解决方案,而其他人可能会考虑将视频 AI 用于单个位置。IP 摄像机、AI 服务器和 NVR/VMS 系统都可以位于一个物理位置本地,也可以位于多个物理位置。将物理位置上的摄像机与(公共)云中的软件相结合也是可能的。同样,正确的 AI 实施合作伙伴的作用非常重要。
迈克尔·温曼(Michael Weinmann)在Karlsruhe技术学院(2003-2009)学习了电气工程和信息技术,并于2016年获得了波恩大学的计算机科学博士学位。然后,他继续担任博士后研究员和讲师,重点关注波恩大学视觉计算系(直到2021年)的计算机视觉和图形,以及X-Rite研究生院的项目协调员在数字材料外观上。2021年,他加入代尔夫特技术大学,担任智能系统系的助理教授。在计算机视觉,计算机图形和机器学习的交汇处工作,他的研究目标是从不同传感器(即RGB或RGB或RGB信息,深度图,多光谱测量等)中获得的图像或视频数据的了解。),重点是对3D场景的准确,有效的捕获以及它们的解释和可视化。因此,特别的重点是基于利用专用的先验(例如结构性或程序性规则,神经先验或物理学知识的机器学习)来开发可靠的解决方案。各自的研究结果用于跨学科的应用程序场景,包括机器人技术,直播场景中的远程敏感/远程操作,医疗应用以及文化遗产,虚拟原型,土木工程,建筑,建筑和艺术的应用。
尽管在野外有大量未标记的图像,但在原始图像数据上进行了可扩展的视觉预训练仍然是一个挑战。像素重建之类的通用配方努力为有效捕获详细的语义而努力,而在增强图像视图之间保持一致性的方法优化依赖于未经保育数据(如Web Crawls或视频框架)中不存在的归纳偏见。我们如何从广泛的未标记的IMEAL数据集中更有效地学习?我们研究注释引导程序,这种方法学会了将图像关联到示意注释,并使用未标记的数据来引导模型的理解,通过对图像附近农作物的语义进行预测。关键的优势在于它具有规格(哪些语义概念很有趣?)从预测中(这些概念发生在自然图像数据中?)。我们表明,注释引导使我们能够通过策划的未标记数据集或弱监督的数据集指导预训练,同时通过自举损失从所有未经切割的图像数据中学习。我们的实验证明了对野外未标记图像的预先培训的改进,包括视频数据,例如epickitchens,Coco等场景数据以及CC12M(例如CC12M)。