文档组装软件旨在促进基于特定条件的模板文本文档构建的自动化。这种组装首先需要正确编写模板,并制定业务逻辑,规定在何时使用哪些文本、提出哪些问题等。当然,律师希望尽可能多地重复使用条款,否则自动化就无法实现规模经济。然而,这种通用方法需要以非常通用的方式定义文本模板。这会导致编写过程中的复杂性大大增加,也使得培训律师使用这些工具变得更加困难。文档组装工具市场是一个相对成熟的市场,自 2000 年以来,大多数律师都可以使用
文档组装软件旨在促进基于特定条件的模板文本文档构建的自动化。这种组装首先需要正确编写模板,并制定业务逻辑,规定在何时使用哪些文本、提出哪些问题等。当然,律师希望尽可能多地重复使用条款,否则自动化就无法实现规模经济。然而,这种通用方法需要以非常通用的方式定义文本模板。这会导致编写过程中的复杂性大大增加,也使得培训律师使用这些工具变得更加困难。文档组装工具市场是一个相对成熟的市场,自 2000 年以来,大多数律师都可以使用
AIOps 还需要一个可扩展的数据平台,该平台允许以适合每个用例的速度提取、存储和分析 IT 生成的各种、速度和数量的数据,而不会产生孤岛。就多样性而言,AIOps 数据源包括来自所有 IT 技术层的日志、指标和事件、数据中心设施遥测、IT 服务管理工具记录(例如来自监控工具的警报、来自服务台和事件管理工具的事件等)、配置管理数据库、文本文档等。所有这些都代表不同类型的数据,例如结构化、非结构化或半结构化,它们需要不同的策略来实现最佳的提取、存储和分析。就速度而言,AIOps 用例将需要批量和实时提取和分析。
在正常业务过程中,公司花费大量精力阅读和解释文件,这是一个高度手动的过程,涉及繁琐的任务,例如识别日期和名称或确定合同中某些条款的存在与否。处理自然语言很复杂,而且这些文档有各种格式(扫描图像、数字格式)并具有不同程度的内部结构(电子表格、发票、文本文档),这进一步加剧了复杂性。我们提出了 DICR,这是一个端到端、模块化且可训练的系统,可自动执行文档审查的日常工作并允许人工执行验证。该系统能够加快这项工作,同时提高提取信息的质量、一致性和吞吐量并减少决策时间。提取的数据可以输入到其他下游应用程序中(从仪表板到问答再到报告生成)。
威胁报告、政策、标准、控制和行业框架通常表现为庞大的“长篇”文本文档,阅读和分析这些文档可能非常耗时。AI 的变革能力之一在于它能够帮助理解非结构化数据。生成式 AI (GenAI) 可以轻松解析和分类长篇文本,从而简化报告,这是技术复杂性和董事会决策之间的重要环节。GenAI 还可以提取结构化数据或特定字段,从而获得进一步的见解,例如将威胁报告中的信息转换为 SIEM 查询。该技术可应用于网络钓鱼模拟、审查和采取行动报告,并有可能减少误报(太多误报可能会使员工对实际的网络钓鱼威胁麻木)。
生成无限 AI 模型的生成能力几乎可以应用于无限领域——从生成图像、视频、草图和文本文档到音频、语音和音乐,其简单性和质量令人叹为观止。例如,现在购买一部新的莎士比亚戏剧只需要向复杂的语言模型分配一些简明的指令。同样,为你的科幻小说获取插图也同样简单,只需利用你自己的一张照片的构图,该照片的背景是奇幻世界。如果你好奇安东宁·德沃夏克如何将一首当代说唱歌曲改编成交响乐,这很容易理解。只要有一点耐心,这些尝试就能产生令人印象深刻的可信和高质量的结果。生成内容的问题和争论可能最引人注目的是一张看似真实的教皇方济各的照片的病毒式传播,这张照片是由 Midjourney 生成器 (Novak, 2023) 制作的。
STF 以电子形式接收来自全国所有法院的上诉,以及特别法院审理的案件,这些案件的全文保存在 PDF 格式的“大量”文件中,其中相当一部分文件并未“官方化”,即图像格式的文本文档,没有可供机器阅读的纯文本层。同样,这些文件包含程序性文件(初始请愿书、上诉决定、特别上诉请愿书等),但没有任何标识或索引,也就是说,没有对文件进行命名或标记(判决、特别上诉请愿书等),这使得在流程中找到它们变得更加容易。为了充分利用人工智能应用于自然语言(文本),Victor 的目标是执行四项活动: - 通过数字或电子过程将图像转换为文本; - 分离文件的开始和结束(程序性文件、决定等); -对 STF 活动中最常用的程序文件进行分离和分类
在正常业务过程中,公司花费大量精力阅读和解释文件,这是一个高度手动的过程,涉及繁琐的任务,例如识别日期和名称或确定合同中某些条款的存在与否。处理自然语言很复杂,而且由于这些文档有各种格式(扫描图像、数字格式)并且具有不同程度的内部结构(电子表格、发票、文本文档),这进一步复杂化了这一过程。我们提出了 DICR,这是一个端到端、模块化且可训练的系统,可自动执行文档审查的日常方面,并允许人类执行验证。该系统能够加快这项工作,同时提高提取信息的质量、一致性、吞吐量并减少决策时间。提取的数据可以输入到其他下游应用程序中(从仪表板到问答和报告生成)。
民用运输飞机的适航认证过程成本高昂、耗时长,且存在不确定性。为了减少认证过程所花费的成本和时间,本文提出了一种使用虚拟认证技术将认证考虑因素纳入早期设计阶段的方法。作为概念验证,本文重点关注飞行性能认证要求,并基于 FAR-25 Subpart B 开发了飞机概念和早期初步设计的认证分析模块。该模块将法规从文本文档转换为定量约束函数,并通过基于物理的分析确保设计的认证约束检查。为了验证该模块,开发了一个小型单通道飞机测试模型并使用该模块进行虚拟认证。测试模型的认证分析结果与公共领域数据进行了基准测试。
诸如大语言模型(LLM)和视觉语言模型(VLM)之类的基础模型已显示出在许多域中的特定于任务特定模型,几乎没有进行微调。这种新的人工智能范式激发了我们将预训练的VLM应用于文本到视频检索。尽管这些模型无法直接处理视频,但我们研究了一个简单的解决方法:提示VLM提供视频帧的详细描述,以生成可用于语义文本搜索的文本文档。我们表明,这种简单的方法为使用MSR-VTT基准测试提供了零拍视频检索的竞争基线,这表明将基础模型应用于视频检索的任务。我们提供了广泛的消融,以了解系统的哪些部分对于性能很重要,并突出了许多将VLMS应用于视频检索的途径。