2022 年 12 月,国会通过了 2023 财年的《国防授权法案》(NDAA)。1 该法案要求美国海事管理局 (MARAD) 局长不迟于 2023 年 1 月 1 日在美国商船学院 (USMMA) 性侵犯预防和应对 (SAPR) 计划内建立一个信息管理系统。2 该法案要求该系统以可以合理识别模式的方式跟踪和维护有关学员和其他学院人员的性侵犯或性骚扰索赔的信息。该法案还要求交通部 (DOT) 监察长办公室 (OIG) 对该系统进行网络安全审计。3 因此,我们的审计目标是 (1) 确定 MARAD 是否已为 SAPR 计划实施了符合 NDAA 要求的信息管理系统,以及 (2) 评估系统的网络安全和隐私控制。
生物识别和身份识别部门 (BID) 成立于 2011 年,旨在将所有密歇根州警察 (MSP) 的生物识别模式整合到一个部门下。BID 内有四个部门,负责维护和利用生物识别数据库来识别涉嫌犯罪或无法识别自己的个人。BID 由自动指纹识别科 (APIS)、组合 DNA(脱氧核糖核酸)索引系统 (CODIS) 科、数字分析和识别科 (DAIS) 和测谎科组成。本报告旨在提高密歇根州警察机构和社区所获得的信息、统计数据和支持的透明度。有关该部门及其部门的概述,请参阅 2022 年透明度报告。2024 年的统计数据如下。
最近,机器学习和人工智能的进步在各个领域发挥着越来越重要的作用。过去几年中,各行各业已经表明,从数据中学习、识别模式并在最少的人为干预下做出决策对其业务非常有用(例如,图像分类、向客户推荐产品、在社交网络中寻找朋友、预测客户行为等)。这些成功案例激励着研究物理、化学、材料、医学和许多其他学科的科学家探索一种新的途径,利用回归和分类等机器学习技术进行科学活动。然而,大多数现有的机器学习工具、系统和方法都是为编程专家开发的,而不是为对编程一无所知或知之甚少的科学家(或任何用户)开发的。
大数据是指具有其体积,速度,多样性,准确性和价值的非常大的数据集(通常称为“ 5vs”)。对于传统数据分析工具和方法,这些数据集通常太复杂了。在社会工作的背景下,大数据来自各种来源,包括政府记录,医疗保健数据,社交媒体平台和计划评估报告(Boyd&Crawford,2012年)。汇总和分析此数据的能力为社会工作者提供了前所未有的机会,可以识别模式,预测结果并改善服务提供服务。例如,可以合成儿童福利服务,就业计划和医疗保健系统的数据,以了解影响脆弱人群的相互关联因素。大数据还可以捕获实时信息,从而可以更快地对无家可归,家庭暴力或自然灾害等危机做出更快的反应。
生成人工智能(Genai)是人工智能(AI)最具变革性的分支之一。是指基于从现有数据中学到的模式,可以创建新内容,例如文本,图像,音乐甚至代码。与主要旨在识别模式并做出预测的传统AI系统不同,生成的AI模型可以生成类似于培训的输入数据的新型输出。使用一些更熟悉的生成AI工具用于:生成文本(OpenAi的GPT-4);发声(Openai Jukebox),DeepMind的Wavenet;图像生成(Openai的DALL-E);时间序列生成(Amazon Web服务的TimeGan),视频生成(Sora - OpenAI的文本对视频模型);和代码生成(Openai和Github,OpenAI Codex的GitHub Copilot)。
开发分类器的机器学习方法是创建一个“模型”,该模型基于从已经分类的“训练数据”中学习,通常由专家手动完成。模型构建通过识别模式或特征的过程进行,这些模式或特征是训练数据中“选定”记录的特征,而不是“未选定”记录的特征。这不是一个精确的过程,通常会构建和测试几个不同的模型来确定哪个模型能提供最准确的结果。在评估模型时,必须根据业务需求定义准确性。例如,对于此任务,正确识别有价值记录同时包括一些短暂记录的分类器将被认为优于减少短暂记录选择但丢失有价值记录的分类器。对于其他应用程序,反之亦然。
首先,重要的是要对什么是 AI(以及什么不是 AI)有一个基本的了解。人工智能(AI)是计算机科学的一个分支,旨在创造模仿人类智能的机器。它用于执行通常需要人类思维的任务,例如理解语言、识别模式或做出决策。AI 的类型包括执行特定任务的系统,例如推荐电影或自动更正打字错误,以及可以生成新内容或预测未来结果的更高级形式。AI 也是自动驾驶汽车和数字助理(如 Siri 或 Alexa)背后技术的一部分。从本质上讲,AI 允许机器像人类一样学习、适应和执行任务,通常更快、更准确。它是一项快速发展的技术,已经成为我们日常生活的一部分。
詹娜·伯雷尔 (Jenna Burrell) 教授指出了三类不透明性,这些不透明性使得算法对用户来说可能难以理解,有时对设计者来说也是如此。12 虽然并非所有算法都是“黑箱”系统,但更先进的算法依赖于深度学习或 ML 技术,这些技术旨在处理大量输入数据和相关结果(即“学习集”)来“训练”机器识别模式,最终生成自己的实现期望结果的途径。这些系统是不透明的,因为它们处理大量数据并推断数据点之间的关系,而这种关系超出了人类在类似时间限制内可以合理计算的能力。算法的准确性和预测能力与其复杂性成正比。此类系统自动化程度最高,但截至本文发表时,业界使用的可能性最小。