摘要。利用大型视觉模型(VLM)的有效表示来完成各种下游任务,引起了人们越来越多的关注。在该研究领域中,软提示学习已成为有效地适应VLM(例如剪辑)的代表性方法,例如图像分类。但是,大多数现有的及时学习方法都学习无法解释的文本令牌,这些文本令牌无法满足医疗保健等高风险场景中可解释的人工智能(XAI)的严格解释性要求。为了解决这个问题,我们提出了一个新颖的可解释的提示学习框架,该框架通过在多个差异方面对齐图像,可学习的提示和临床概念驱动的提示来利用医学知识。此外,我们的框架通过从大型语言模型中引起知识来解决缺乏宝贵的概念注释,并为提示提供了视觉和文字解释。在各种数据集上进行的广泛的实验和可解释性分析,有或没有概念标签,表明我们的方法同时实现了卓越的诊断性能,灵活性和解释性,并阐明了基础模型在促进XAI方面的有效性。该代码可在https://github.com/tommy-bie/xcoop上找到。
摘要:利用功能性磁共振成像(fMRI)构建功能连接是基于深度学习的脑分析的一个成熟范例。近年来,得益于大规模多模态预训练数据带来的显著有效性和泛化能力,视觉-语言(VL)模型在众多医疗任务中取得了优异的表现。然而,将预训练的 VL 模型应用于脑分析面临着两个重大挑战:(1)缺乏配对的 fMRI-文本数据;(2)从多模态数据构建功能连接。为了应对这些挑战,我们提出了一种 fMRI-文本协同提示学习(fTSPL)流程,该流程首次利用预训练的 VL 模型来增强脑分析。在 fTSPL 中,我们首先提出一种激活驱动的脑区文本生成 (ABTG) 方案,该方案可以自动生成描述每个 fMRI 的实例级文本,然后利用 VL 模型学习多模态 fMRI 和文本表示。我们还通过建立 fMRI 文本表示和脑区嵌入之间的相关性,提出了一种提示增强的多模态功能连接构建 (PMFCC) 方案。该方案作为即插即用的初步方案,可以连接到各种图神经网络 (GNN) 进行大脑分析。在 ABIDE 和 HCP 数据集上的实验表明,我们的流程在脑分类和预测任务上的表现优于最先进的方法。代码可在 https://github.com/CUHK-AIM-Group/fTSPL 获得。
摘要 - 非常重要的是,文本提示调整在调整对比的语言图像预训练(剪辑)模型中表现出了启示性能,以对自然图像质量评估。但是,这种单模式提示学习方法仅调节剪辑模型的语言分支。这还不足以使剪辑模型适应AI生成的图像质量评估(AGIQA),因为AGIS在视觉上与自然图像有所不同。此外,没有研究与AGIS相关的AGIS和用户输入文本提示之间的一致性,该提示与AGIS的感知质量相关,并未研究以指导AgiQA。在这封信中,我们提出了视觉语言一致性指导的多模式的迅速学习,以学习为clip-agiqa。具体来说,我们分别在剪辑模型的语言和视觉分支中介绍了可学习的文本和视觉提示。此外,我们设计了一个文本对象对齐质量预测任务,该任务的学习视觉一致性知识用于指导上述多模式提示的优化。对两个公共AGIQA数据集的实验结果表明,所提出的方法超过了最先进的质量评估模型。源代码可在https://github.com/junfu1995/clip-agiqa上找到。
城市时空预测对于明智的决策,例如运输管理,资源优化和公共卫生策略增强至关重要。尽管在验证的自然语言模型中取得了突出的突破,这使一个模型能够处理各种任务,但对于时空建模的通用解决方案仍然难以捉摸。现有的预测方法通常是针对特定时空的SCE-Narios量身定制的,需要特定于任务的模型设计和广泛的域 - 特定于域的培训数据。在这项研究中,我们介绍了Unist,这是一种旨在在各种场景中为一般城市时空预测的Unist模型。受到大型语言模式的启发,Unist通过:(i)跨时空数据的可伸缩性取得了成功,(ii)有效的预训练可捕获综合时空关系,(iii)时空知识引导提示提示增强通用能力。这些迹象共同解锁了具有强大的概括能力的各种场景的通用模型的潜力。进行了20多个时空场景的实验,这表明了Unist在提高最先进的词典表现方面的功效,尤其是在少数弹奏和零弹性词语中。数据集和代码实现在https://github.com/tsinghua-fib-lab/unist上发布。
Pytorch,Pytorch Lightning和OpenCV。在此过程中提取了输入文本中的上下文信息,然后将信息转换为视觉组件。这项工作的主要目标是研究如何将语言和视觉线索组合在一起,以制作精确传达文本材料的电影,同时还可以显示风格的细节。该系统的关键组成部分,样式传输使当前的视觉样式采用了生产的视频,从而产生了令人惊叹的结果,以示例创意美学。该系统旨在通过各种样式证明其方法论在视频制作中的有效性,从而展示创新和定制的可能性。这项工作有助于随着人工智能和多媒体继续融合内容的融合,从而有助于不断变化的环境,这是通过对语言和视觉之间的相互作用所带来的机会来融合的。这项研究通过展示文本到视频生产的功能与样式转移的能力,强调了AI驱动的多媒体合成的游戏可能性不断变化的可能性。
预训练的视觉语言(V-L)模型(例如剪辑)表现出了出色的泛化能力,可以在下游任务下进行。但是,它们对选择输入文本提示很敏感,需要仔细选择及时模板才能表现良好。受到自然语言处理(NLP)文献的启发,最近的剪辑适应方法学习提示是作为下流任务的文本输入的文本输入。我们注意到,在剪辑的单个分支(语言或视觉)中使用提示将代表改编为亚最佳选择,因为它不允许在下游任务上动态调整两个表示空间。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(枫),以证明视觉和语言代表之间的一致性。我们的设计促进了视觉语言提示之间的牢固耦合,以确保相互协同作用并宣扬学习独立的单模式解决方案。,我们在不同的早期阶段学习了单独的提示,以逐步建模阶段的特征关系,以允许丰富的上下文学习。我们评估了方法对新的类别,新的目标数据集和看不见的主要变化的三个代表性任务的有效性。与最先进的方法合作社相比,枫木表现出良好的性能,并且在新型类别上获得了3.45%的绝对增益,而总体谐音均值为2.72%,平均有11种不同的图像识别数据集。我们的代码和预培训模型可在https://github.com/muzairkhattak/multimodal- strick-learning上找到。
生成人工智能 (Gen AI) 可以帮助解决加拿大繁荣和生活水平面临的最大经济威胁之一:低生产率。在加拿大商会商业数据实验室 (BDL),我们一直密切关注 Gen AI 的采用情况,知道这项技术带来的可能性将对企业、工人和加拿大的经济未来产生重大影响。现在,我们很高兴推出这份深入探讨加拿大企业采用 Gen AI 情况的报告。
基于生成深度学习的最终用户工具,即“生成AI”(在第2.2节中定义)可以大大提高用户分析和了解数据的能力,尤其是那些没有正式专业知识或数据分析中的培训的数据。数据分析工作 - 众所周知,乏味,具有挑战性,容易出错,并且具有很高的专业知识要求。生成的AI在促进数据分析脚本的创作和调试,重新使用分析工作流程,分析脚本的理解,学习和探索方面显着提高了最新技术的状态[58]。用户行为的潜在变化已被描述为生成偏移[58]。生成转移提出了三个变化轴:强化(将应用于现有的工作流程更复杂的自动化),扩展(将自动化更多的工作流程)和加速度(以前成本高昂的工作流程将在其自身自动化时变得更加便宜)。在最终用户数据驱动的感官中,即生成转移的一个重要用户方案,即在某些数据的上下文中进行分析(通常是开放的,定义不明和探索性的)(第2.1节中详细介绍)。最终用户数据驱动的感觉的经典示例包括个人和公司预算,电子表格中的财务建模以及量化的自我[39]活动。不太明显的例子包括旅行计划,或选择访问或电影观看的餐厅。如前所述,生成的AI在数据驱动的感觉中有许多应用。这些涉及定性和定量信息的混合物,以及主观和“客观”迹象;要选择一部电影,人们可能会考虑一个人的偏好和心情,任何同伴的喜好,对预告片的反应,批判性评论和评分,电影持续时间,流派,导演,演员等。它可以建议相关数据集或分析程序,编写数据转换和分析脚本或电子表格公式,帮助调试或重新使用现有脚本,提出主观标准以评估不同的选项,教用户如何应用不熟悉的统计程序或工具,甚至可以帮助用户脱颖而出,以使用户脱颖而出,以帮助用户不适当地造成问题。面对如此广度的应用程序,系统设计师面临的关键问题是范围之一:在何处,通过生成AI来改善数据驱动的感觉的最终用户体验的最大机会和挑战?我们的研究是Sarkar等人首次应用参与式促使Proto-Col的研究。[63]探索生成AI的机会和挑战。参与性促进是研究人员介导的参与介导的参与式的相互作用与广泛的开放式AI系统,例如OpenAI Chatgpt或Microsoft Bing Chat。后者是“广泛”的,因为它们旨在在广泛的工作流程中为援助提供支持。通过研究人员介导的研究,参与者的经验可以基于实际的AI功能,而研究人员将其范围为特定领域(在我们的情况下,是数据驱动的感官)。我们在我们的方法的描述中讨论参与提示的价值(第3节)。我们的研究发现,生成的AI支持数据分析工作 - 通过简化信息来觅食循环中的数据流
摘要 - 及时工程中的预测提供了减轻大语模型(LLMS)文化幻觉的重要潜力。提示的战略表述,与深厚的文化和语言见解相结合时,可以在非英语环境中尤其是LLM的准确性和文化敏感性。本文探讨了在三个主要LLMS(Openai Chat-gpt,Google Gemini和Anthropic Claude)中及时工程的应用,阐明了量身定制的提示如何有效地减少文化偏见并改善用户互动。通过案例研究和比较分析,研究确定了最佳实践,并为进一步发展提供了战略建议。这些发现强调了在AI中持续创新和道德考虑的重要性,以确保全球技术应用中的包容性和尊重。
•斯坦福大学位于加利福尼亚州的__________。[Trivia]•我将___叉放在桌子上。[语法]•那个女人走过马路,检查___肩膀的交通。[COREFERCE]•我去了海洋,看到鱼,海龟,海豹和_____。[词汇语义/主题]•总的来说,我两个小时从观看爆米花和饮料的总和。电影是___。[情感]•IROH进入厨房喝点茶。Zuko站在Iroh旁边,思考了自己的命运。Zuko离开了______。[某些推理 - 这很难]•我在考虑1、1、2、3、5、8、13、21,____ [一些基本算术;他们不学习fibonnaci序列]