并在整个生命周期内管理可信赖的人工智能的风险。举例来说:1)人工智能知识和资源的供应商可以包括:内容创建者;数据提供者和数据注释者;投资者;数字基础设施提供商;硬件制造商。2)人工智能生命周期中的参与者可以包括参与以下活动的公司、国家、研究机构:系统的规划和设计;数据的收集和处理;模型的构建和使用;模型的验证和确认;部署系统,无论分销渠道如何(包括开源软件的分发);以及系统的操作和监控;3)人工智能系统的用户/运营商可以包括企业,包括金融机构和“实体”经济中的企业(例如,制造、采购和商品和服务流动);将人工智能用于个人用途、商业或研究活动的个人或其他参与者;以及国家。
本文介绍了一种新颖的“公平性”数据集,以衡量 AI 模型对不同年龄、性别、表观肤色和环境光照条件的稳健性。我们的数据集由 3,011 名受试者组成,包含 45,000 多个视频,平均每人 15 个视频。这些视频是在美国多个州录制的,参与者是不同年龄、性别和表观肤色组的成年人。一个关键特征是每个受试者都同意参与并使用他们的肖像。此外,我们的年龄和性别注释由受试者自己提供。一组训练有素的注释者使用 Fitzpatrick 皮肤类型量表标记受试者的表观肤色 [ 6 ]。此外,还提供了在低环境光下录制的视频的注释。作为衡量跨某些属性的预测稳健性的应用,我们评估了最先进的表观年龄和性别分类方法。我们的实验从公平对待来自不同背景的人的角度对这些模型进行了彻底的分析。
大型语言模型的进步通过实现可扩展有效的学习解决方案彻底改变了医学教育。本文介绍了基于经过验证的回复的波兰州专业化考试(PES)的评论生成的管道,以准备评论生成。该系统将这些生成的合并和源文档与间隔的重复学习算法集成在一起,以增强知识的保留,同时最大程度地减少认知过载。通过使用精制的检索系统,查询档案和advanced Reranker,我们修改的抹布解决方案比效率更高的精度促进了准确性。对医学注释者进行严格的评估表明,通过本文中介绍的一系列实验证明了关键指标的改进,例如文档相关性,可信度和逻辑连贯性。这项研究强调了抹布系统提供可扩展,高质量和个性化的教育资源的潜力,以解决非英语用户。
词典可用,例如古代语言。此能力的骨干是获得大量培训数据。鉴于这一突破,近年来,在应用无监督的机器翻译(UMT)方法的应用中,人们引起了极大的兴趣,以破译潜在智能动物的交流,大多数努力都集中在具有独特通信系统的丝网鲸上。但是,要应对UMT所需的数据量,可以自动检测和注释这些信号的工具是先决条件。在本演讲中,我们将提出一个基于探测器的注释者,用于抹香鲸通信信号。我们将描述主要思想和理论表述。参与者将将注释软件应用于两只鲸鱼之间的简短对话的样本记录。最后,将根据软件提取的功能,将参与者分为组,并给出时间尝试将带注释的信号与相应的扬声器匹配。成功完成此任务的团队将能够揭示晶石的“类似语言”结构。3。基于激光雷达的码头和碰撞避免 - MBZIRC 2023 LIDAR技术已成为自主导航系统的组成部分,尤其是在海上
随着大规模语言模型 (LLM) 的进步,角色扮演对话代理 (RPCA) 的开发也日益受到重视。尽管取得了这些进展,但仍明显缺乏围绕对话而不是问答格式设计的基准,以评估 RPCA 交互的有效性。本文介绍了 RAIDEN 基准,它包含专门为 RPCA 评估开发的综合数据集,包括 135 个字符的 40,000 多个多轮话语。该基准侧重于评估对话不同阶段的特定维度,通过注释者进行的交互来实现。这种方法使评估阶段能够集中在特定的响应维度上,从而降低了对话评估中的主观性。为了进一步增强客观性,评估者会比较两个不同模型的响应,而不是孤立地评估单个响应。此外,我们还推出了 RPCAJudger,这是专为自动 RPCA 评估而量身定制的专业评判 LLM。RPCAJudger 进行的评估与人类判断非常相似,其无 API 方法可防止潜在的数据泄露。所有模型和所有非私有排行榜数据都将公开 1 。
计算社会科学(CSS)的实践通常依靠人标记的数据来调查监督的文本分类器。我们评估了研究人员使用来自生成大语言模型(LLM)的替代培训标签增强或替换人类生成的培训数据的潜力。我们介绍了推荐的工作流程,并通过复制14个分类任务和测量性能来测试此LLM应用程序。我们采用了来自高影响力期间CSS文章的新型英语文本分类数据集。由于这些数据集存储在受密码保护的档案中,因此我们的分析不太容易受到污染问题。对于每项任务,我们将使用GPT-4标签的监督分类器进行了比较,并用人类注释进行了微调的分类器,并与GPT-4和Mismtral-7b的标签进行了微调,并以较少的镜头在上下文中学习。我们的发现表明,在LLM生成的标签上微调的监督分类模型与通过人类注释者的标签进行了微调的模型相当。使用LLM生成标签的微调模型可以是构建监督文本分类器的快速,高效且具有成本效益的方法。
数据是AI开发的基石。AI经常使用从网络上刮下来的数十个数据点进行训练和微调,批量购买或由大量人类注释者贡献。知道用于培训模型的数据集中的内容以及如何编译它们,对于安全和负责的AI系统的开发和部署至关重要。AI数据透明度是指关于在整个AI生命周期3中如何使用数据的开放性,重点是上游数据组件:培训数据,微调,调整,参考数据和基准测试。4尽管具有数据的重要性,但大多数领先的AI公司一直不愿透露用于训练和测试其模型5的数据集的详细信息,这有助于称为“不断增长的数据透明度危机”。6斯坦福基金会模型透明度指数评估了提供许多AI工具和服务的骨干的主要基础模型,这表明与透明度7的其他方面相比,使用的数据透明度非常低。最近的ODI研究检查了媒体中强调的最近“ AI事件”链接的一系列模型的数据透明度,并确定了数据透明度信息的同样较低的存在,以及访问此信息的关键障碍。8
抽象的高通量技术导致了有关人类基因组中调节性DNA元素的大量数据。但是,疾病驱动的研究的结果主要以文本形式作为科学文章共享。信息提取(IE)算法允许(半)自动访问此信息。他们的发展取决于注释的语料库的可用性。因此,我们引入了Regel(reg ulatory element),这是第一个免费提供的语料库,其中包含305个PubMed摘要的调节性DNA元素,总共有2690个句子。我们专注于增强子,启动子和转录因子结合位点。三个注释者在两个阶段工作,达到了总体0.73 F1通道一致性,调节元素为0.46。取决于实体类型,IE基准的实体检测达到0.48–0.91的F1-分数,实体归一化的基准为0.48-0.91,0.71–0.88达到0.71–0.88。接下来,我们将实体检测模型应用于整个PubMed收集,并提取基因或与调节元素的疾病的共发生。这产生了与137 870个独特基因和7420疾病相关的大量调节元素,我们可以公开使用。数据库URL:https://zenodo.org/record/6418451#.yqclhvexvqg
当前医学图像处理研究在很大程度上依赖于输入数据的数量和质量。具体来说,监督机器学习方法需要注释良好的数据集。缺乏注释工具限制了实现大容量处理和具有适当奖励机制的扩展系统的潜力。我们开发了基于 Web 的工具 MarkIt,用于使用人工智能和区块链技术协作注释医学图像数据。我们的平台可处理医学数字成像和通信 (DICOM) 和非 DICOM 图像,并允许用户以高效的方式注释它们以进行分类和对象检测任务。MarkIt 可以加速注释过程并跟踪用户活动以计算公平的奖励。对三名经过专业培训的放射科医生进行了概念验证实验,他们每人注释了 1,000 份胸部 X 光片以进行多标签分类。我们计算了评分者之间的一致性并估计了数据集的价值,以使用加密货币分配注释者的奖励。我们假设 MarkIt 可以让通常很繁琐的注释任务变得更加高效。此外,MarkIt 还可以作为一个平台,用于评估数据的价值,并在未来以更具可扩展性的方式交易注释结果。该平台可在 https://markit.mgh.harvard.edu 上公开测试。
尽管关于对话代理的设计和使用的研究越来越多,但对话代理仍然难以完全取代人工服务。因此,越来越多的公司采用人机协作系统来提供客户服务。了解人们如何从人机协作对话中获取信息非常重要。虽然现有的工作依赖于自我报告的方法来从用户那里获得定性反馈,但我们在彻底检查了现实世界的客户服务日志后,总结出了人机协作对话中用户消息的分类系统,可以客观地反映用户的信息需求。我们将用户消息分为五类和 15 种特定类型,与三个高级意图相关。两位注释者独立对来自 300 次对话的同一组 1,478 条用户消息进行分类,并达到了中等一致性。我们总结并报告了不同消息类型的特征,并比较了它们在仅有人类、AI 或两者代表的会话中的使用情况。我们的结果表明,不同类型的消息在使用频率、长度和与会话中其他消息的文本相似性方面存在显著差异。此外,在我们的数据集中使用不同消息类型的频率在与不同类型的代表的会话中似乎是一致的。但我们也观察到在与不同代表的会话中,一些特定消息类型存在一些显著差异。我们的结果用于建议人机协作对话系统中一些需要改进的领域和未来的工作。