最新的表示学习研究表明,层次数据将自己带入双曲线空间中的低维和高度信息的表示。但是,即使双曲线嵌入在图像识别方面也收集了,它们的优化也容易出现数值障碍。此外,与传统的Eu-Clidean特征相比,尚不清楚哪种应用将受益于双曲线的隐性偏见最大。在本文中,我们专注于原型双曲神经网络。尤其是,双曲线嵌入的趋势会在高维度收敛到庞加尔e球的边界,并且对这对几乎没有的分类具有影响。我们表明,在常见的双曲半径上获得双曲线嵌入的最佳射击效果。与先前的基准结果相反,我们证明了配备有欧几里德指标的固定radius编码器可以实现更好的性能,而与嵌入式维度无关。
摘要大型语言模型(LLMS)的最新出现已在自然语言处理(NLP)领域取得了重大进步。尽管这些新模型在各种任务上都表现出卓越的性能,但在他们可以处理的任务的多样性和应用领域的多样性方面,它们的应用和潜力仍未得到充分展望。在这种情况下,我们在一组13个现实世界中的临床和生物医学NLP任务中评估了四个最先进的指导型LLM(Chatgpt,Flan-T5 UL2,TK-Instruct和Alpaca),英语中的NLP任务,包括指定的实用性识别(NER),问题(NER),求解(QA),涉及(QA),涉及(qa),resitation(qa),更多。我们的总体结果表明,这些评估的LLMS在大多数任务中以零和几乎没有弹药方案的方式进行了最先进的模型的性能,即使他们以前从未遇到过这些任务的示例,尤其是在质量检查任务中表现出色。但是,我们还观察到,分类和重新任务无法通过为医疗领域设计的专门训练的模型(例如PubMedbert)实现的性能。最后,我们注意到,在所有研究任务中,没有一个LLM胜过所有其他LLM,某些模型比其他模型更适合某些任务。
摘要。通过多模式学习整合图像和文本数据已成为医学成像研究中的一种新方法,并在计算机视觉中成功地部署了。虽然已经致力于建立医疗基金会模型及其零射击到下游任务,但流行的几杆设置仍然相对尚未探索。从当前在计算机视觉中的这种设置的强劲出现之后,我们引入了第一个结构化基准,用于在严格的几杆状态下适应医学视觉模型(VLMS),并研究自然图像背景中常用的各种适应性策略。此外,我们评估了线性探针适应性基线的简单概括,该基础是通过可学习的类乘数来寻求视觉原型和文本嵌入的最佳混合。令人惊讶的是,这种文本知情的线性探针与基于复杂的及时学习和基于适配器的策略相比产生了竞争性能,同时运行速度要快得多并适应黑盒子设置。我们的扩展实验涵盖了三种不同的医学模式和专业的基础模型,九个下游任务以及几种最先进的少数适应方法。我们提供了我们的基准和代码公开,以触发此新兴主题的进一步发展:https://github.com/fereshteshakeri/few-shot-medvlms。
该大师项目的目的是创建一个适用于包括医学在内的图像的任意域的复杂的深击检测器。该检测器将使用在有限的深层示例中训练的神经网络开发。主要目标是设计和实施一种学习算法,该算法不仅在时间上有效,而且需要最少或不需要人类干预。该项目的一部分是创建一个新的基准,构成真实和生成的医学图像。将使用已建立的基准和项目中创建的医学图像的新基准进行比较开发的DeepFake检测器。指南:1。熟悉有关DeepFake检测的已发表工作;考虑CVPR和ICCV等突出的会议。2。审查并总结了深层检测最新方法下的核心原则。3。设计并实施了深泡检测器的一些弹药学习算法。4。创建生成和真实医学图像的基准,用于测试深冰探测器。5。验证学习算法的功能并比较其性能指标,包括检测准确性,时间效率和学习过程中所需的人类监督水平,与既定的最新方法。
抽象人工智能(AI)辅助疾病预测由于其支持临床决策的能力而获得了广泛的研究兴趣。现有作品主要将疾病预测作为多标签分类问题,并使用历史电子病历(EMR)来培训监督模型。然而,在现实世界中,这种纯粹的数据驱动方法提出了两个主要挑战:1)长尾巴问题:常见疾病的EMR过多,并且对于罕见疾病的EMR不足,因此对不平衡的数据集进行培训可能会导致在诊断中忽略偏见模型的偏见模型; 2)很容易误诊疾病:某些疾病很容易区分,而另一些疾病则更加困难。一般分类模型而不强调容易诊断的疾病可能会产生错误的预测。为了解决这两个问题,我们在本文中提出了一种医学知识增强的对比学习方法(MKECL)方法。MKECL将医学知识图和医学许可考试纳入建模中,以弥补有关稀有疾病的足够信息;为了处理难以诊断的疾病,MKECL引入了一种对比度学习策略,以分离容易被误诊的疾病。此外,我们建立了一个名为Jarvis-D的新基准,其中包含从各种医院收集的临床EMR。对实际临床EMR的实验表明,拟议的MKECL优于现有的疾病预测方法,尤其是在几乎没有射击和零拍的情况下。
弱监督的时间动作本地化旨在通过仅将视频级标签作为监督来定位行动区域并同时确定未修剪视频中的动作类别。伪标签生成是解决具有挑战性的问题的一种承诺策略,但是熟悉的方法忽略了视频的自然时间结构,可以提供丰富的信息来协助这种常规过程。在本文中,我们通过推断出明显的摘要 - 特征提出了一种新型弱监督的时间动作定位方法。首先,我们设计了一个显着推理模块,该模块利用了临时邻居片段之间的变化关系以发现显着的摘要功能,这可以反映视频中的显着动态变化。其次,我们引入了一个边界改进模块,该模块通过信息介绍单元增强了显着的摘要功能。然后,引入了一个歧视增强模块,以增强摘要特征的歧视性质。最后,我们采用精致的摘要功能来制定高保真伪标签,可用于进行动作本地化网络的培训。对两个公开数据集进行的实验实验,即,Thumos14和ActivityNet V1.3,与最先进的方法相比,我们所提出的方法取得了重大改进。我们的源代码可在https://github.com/wuli555555/issf上找到。
动物视觉感知是一种重要的技术,用于监测动物健康,了解动物行为并协助与动物有关的研究。然而,设计一个基于深度学习的感知模型,该模型可以自由地跨各种感知任务自由地适应不同动物,这是由于大量动物的不同姿势,缺乏对稀有物种的数据以及不同任务的半偏见不一致。我们介绍了Uniap,这是一种新型的通用动物感知模型,该模型利用了很少的射击学习来实现各种视觉任务之间的跨物种感知。我们提出的模型将支持图像和标签作为查询图像的及时指导。图像和标签分别通过基于变压器的编码器和轻质标签编码来处理。然后,匹配模块设计用于汇总及时指导和查询图像之间的信息,然后是多头标签解码器,以生成各种任务的输出。通过利用不同动物和任务之间的共同视觉特征,Uniap可以将知识从良好的物种转移到具有有限标记的数据甚至看不见的物种的物种。我们通过对多种动物物种的姿势估计,分割和分类任务进行全面实验,证明了UNIAP的有效实验,展示了其具有最小标记示例的新阶级和适应新类的能力。