细菌性阴道病(BV)是一种常见的阴道感染,可以使患者易患几种并发症,例如骨盆炎性疾病。像许多疾病一样,现有的诊断方法在诊断确定性和成本之间面临着权衡。为了帮助解决这一难题,我们探索了可作为IoT设备实现的计算诊断方法。我们基于AMSEL标准开发了几种深度学习模型,以评估更好地自动化BV诊断的不同廉价点测试。我们首先确定如何通过在上皮细胞图像上训练的计算机视觉模型来最佳诊断BV。我们发现,在NUSWAB诊断标签上训练RESNET18模型的F1得分为89%。然后,我们通过多层感知器以其他AMSEL标准值进行了增强计算机视觉结果,发现使用WHIFF测试值也将fer的性能提高至91%的F1,并且超过人类绩效的AMSEL标准的灵敏度为94.31%。这些结果提供了有关如何最好地使用图像和其他AMSEL标准数据组合来可靠诊断,为将来研究基于IoT的BV诊断铺平道路。
尽管人工智能取得了进展,但物体识别模型在模拟人脑的视觉信息处理方面仍然落后。最近的研究强调了使用神经数据模拟大脑处理的潜力;然而,这些研究通常依赖于非人类受试者的侵入性神经记录,这在理解人类视觉感知方面留下了一个关键的空白。为了解决这一空白,我们首次提出了“Re(表征)Al(对齐)net”,这是一种基于非侵入性脑电图的与人脑活动对齐的视觉模型,显示出与人脑表征的相似性显著提高。我们创新的图像到大脑多层编码框架通过优化多个模型层来推进人类神经对齐,并使模型能够有效地学习和模仿人脑在对象类别和不同模态中的视觉表征模式。我们的研究结果表明,ReAlnet 代表了弥合人工视觉和人类视觉之间差距的突破,并为更多类似大脑的人工智能系统铺平了道路。
通过分析以自我为中心的视频的分析,抽象理解人类行动是智能代理人的理想能力,并且是一个最近越来越受欢迎的研究领域。到目前为止,大多数以自我为中心的(视频)动作识别(EAR)的方法,即,根据预定义的自然语言描述(动作)对给定的视频剪辑进行分类的任务,代表目标动作类(标签)使用一个hot编码,从而忽略了某些动作之间的任何关系或相似性。这项工作的目标是通过利用预先训练的语言模型中编码的先前存在的知识来增强视觉模型的概括能力。具体来说,我们提出了一个语言知识蒸馏框架,以将预训练的语言模型对动作(文本中表达)的知识(在文本中表达)提高到视觉模型。我们不使用标签的单热编码表示,而是将所有动作类别(由语言模型构成)的概率分布作为教学信号。我们的实验表明,我们的框架根据Epic-Kitchens,Something of Something V2等基准获得了EAR的性能和泛化能力。
随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。
大规模视觉模型(例如剪辑)表现出令人印象深刻的能力,并且具有多个应用程序,从文本到图像生成到零照片分类。最近的工作表明,视觉提示(例如红色圆圈)可以将视觉编码器引导到盘旋区域。尽管现在已在各种应用中使用了此类视力提示,但它们可能是特定于模型的,并取决于模型从其训练数据中学习这些行为。在不同的模型,任务和数据集的情况下,发现和评估各种提示可能是不可行的。在本文中,我们提出了一种亮点,一种学习视觉提示的方法,该提示可以突出图像中的区域或完善手动设计的视觉提示。使用我们的框架,我们可以学习使用文本图像区域对的数据集或仅使用合成字幕或图像以无监督的方式以监督方式突出显示。突出显示使用其他视觉提示,提示学习方法以及使用多种模型和视觉提示的集合的计算密集型方法。
摘要。自主驾驶最近在模拟和现实世界中都取得了令人印象深刻的进步,尤其是端到端方法。但是,这些模型通常充当黑匣子,并且缺乏解释性。大型语言模型(LLM)的出现通过将模块化自主驾驶与语言解释相结合,从而解决了潜在的解决方案。最新的LLM解决方案将驱动信息转换为语言,这些语言通常需要手动设计的提示,并可能导致次优信息效率。视觉语言模型(VLM)可以直接从图像中提取信息,但有时会在涉及持续驾驶场景理解和上下文推理的任务中挣扎。在本文中,我们提出了Think-Driver,这是一种视觉语言模型,该模型使用多视图图像来生成合理的驾驶决策和推理过程。我们的模型评估了感知到的交通状况,并评估当前驾驶操作的风险,从而有助于理性决策。通过闭环的话题,思想驱动器的表现优于其他视觉模型基础线,从而产生了可解释的驾驶决策,从而证明了其在未来应用中的有效性和潜力。
摘要。最近的方法表明,诸如剪辑之类的大规模视觉模型可以改善语义分割性能。这些方法通常是针对像素级视觉语言对准的,但通常依赖于剪辑中的低分辨率图像特征,从而导致沿边界的类歧义。此外,剪辑文本嵌入中的全局场景代表与本地和详细的像素级特征直接相关,从而使有意义的对齐变得更加困难。为了解决这些局限性,我们介绍了MTA-CLIP,这是一个采用面具级别视觉语言对准的新型框架。具体来说,我们首先提出了掩码文本解码器,该解码器使用夹夹语言模型使用丰富的文本数据来增强掩码代表。接下来,它使用掩码到文本对比度学习将蒙版表示与文本嵌入一致。此外,我们介绍了蒙版 - 文本提示学习,利用多个上下文特定的提示文本嵌入来捕获跨口罩的各种班级表示。总体而言,MTA-CLIP可以实现最先进的工作,在标准基准数据集,ADE20K和CityScapes上平均超过2.8%和1.3%。
用手操纵的对象(即Manipulanda)对于从互联网视频中重建的重建尤其具有挑战性。手不仅会阻塞大部分观察,而且对象通常仅在少数图像像素中可见。同时,在这种情况下出现了两个强大的安装:(1)估计的3D手有助于消除对象的位置和规模,以及(2)相对于所有可能的观察,Manipulanda的集合很小。考虑到这些见解,我们提出了用于手持对象重建的可扩展范式,该范式基于大型语言/视觉模型和3D对象数据集的最新突破。鉴于单眼RGB视频,我们的目标是随着时间的流逝,以3D的形式重建手持对象几何形状。为了获得最佳性能的单帧模型,我们首先提出MCC手对象(McCho),该模型共同重建手和对象地理位置 - 给定单个RGB图像,并将3D手推断为输入。随后,我们使用GPT-4(v)提示文本到3D生成模型,以检索与图像中对象匹配的3D对象模型;我们称此对齐方式检索重建(RAR)。RAR提供
随着大型语言模型(LLM)的出现,具有越来越令人印象深刻的范围,已经提出了许多大型视觉模型(LVLM),以使LLM具有视觉输入。这样的模型在输入显示和文本提示下生成了文本,从而实现了各种用例,例如视觉问答和多模式聊天。虽然先前的研究检查了LLMS产生的文本中所包含的社会偏见,但该主题在LVLM中得到了相对尚未探索的。检查LVLMS中的社会偏见尤其具有挑战性,这是因为在文本和视觉方式中所包含的信息所产生的偏见的混乱贡献。为了解决这个挑战性问题,我们对不同的LVLM产生的文本进行了大规模研究,该文本在反事实上对输入图像进行了更改,从而从流行模型中提出了超过5700万个响应。我们的多维偏见评估框架表明,图像中描述的种族,性别和身体特征等社会属性可能会显着影响有毒内容,能力相关词,有害的立体类型以及个人的数值等级的产生。
最近,已引入并认可了由领先的成像社会引入并认可了放射组学研究的新共识指南(即放射组学研究的检查清单)和方法论放射素学评分(指标)。6,7 Clear旨在促进透明的报告实践,而指标为评估放射线学研究的方法学质量提供了标准化的工具。指标包括30个分布在五个条件下的项目,旨在适应放射线研究中几乎所有潜在的方法论方案iOS,从传统手工制作的方法到先进的深度学习计算机视觉模型。6指标的开发过程涉及一种修改后的Delphi方法和广泛的国际小组,以减轻偏见并专注于与医学成像有关的放射组研究的特定方面。格式化的欧洲医学成像学会认可了指标工具,其网站为最终质量得分提供了在线计算器,该计算器还考虑了项目条件(请在https:// https:// met ricsscore.github.io.io/metrics/metrics/metrics.html上获得)。6
