摘要 - 视觉生成仍然是人工智能中的具有挑战性的边界,需要无缝整合视觉不介绍和生成能力。在本文中,我们提出了一个新颖的框架,即视觉驱动的及时优化(VDPO),该框架利用大型语言模型(LLMS)动态地从视觉输入中生成文本提示,从而指导高实现图像综合。VDPO结合了视觉嵌入提示调谐器,文本指令生成器和视觉生成模块,以实现各种视觉生成任务的最新性能。在基准(例如可可和粗略)上进行的广泛实验表明,VDPO始终超过现有方法,从而实现了FID,LPIPS和BLEU/CIDER分数的显着改进。其他分析揭示了VDPO的可扩展性,鲁棒性和概括能力,使其成为内域和外域任务的多功能解决方案。人类评估进一步验证了VDPO在产生视觉吸引力和语义相干输出方面的实际优势。索引术语 - LARGE语言模型,提示优化,扩散模型
人工智能和生物智能科学之间的共生关系日益密切:神经原理启发了新的智能机器,而这些机器又被用来推进我们对大脑的理论理解。为了促进生物和人工智能研究人员之间的进一步合作,我们推出了 2025 年版 Algonauts 项目挑战赛:人类大脑如何理解多模态电影 (https://algonautsproject.com/)。与 Courtois 神经元建模项目 (CNeuroMod) 合作,本届比赛旨在通过在迄今为止最大的电影观看 fMRI 反应数据集上进行训练,推出新一代多模态且远超其训练分布的大脑编码模型。2025 年挑战赛面向所有人开放,通过公共排行榜提供透明、直接可比的结果,排行榜在每次提交后自动更新,以促进快速模型评估和指导开发。挑战赛将在 2025 年认知计算神经科学 (CCN) 会议上以获奖模型结束。我们欢迎有兴趣与 Algonauts 项目合作的研究人员,为未来的挑战贡献想法和数据集。
娜塔莉·拉索 1.2 、萨米·阿马里 1.2 、艾米莉·舒泽努 3 、雨果·戈尔泰斯 4 、保罗·赫伦特 5 、马修·德维尔德 4 、萨默·索利曼 4 、奥利维尔·梅里尼亚克 2 , 玛丽-波琳·塔拉巴尔 4 , 让-菲利普·拉马克 1,2 , 雷米·杜波伊斯 5 , 尼古拉斯·卢瓦索 5 , 保罗·特里谢莱尔 5 , 艾蒂安·本杰巴尔 5 , 加布里埃尔·加西亚 1 , 科琳巴雷吉耶 1,2 , 曼苏里亚梅拉德 6 , Annabelle Stoclin 7 、Simon Jegou 5 、Franck Griscelli 8 、Nicolas Tetelboum 1 、Yingping Li 2,3 、Sagar Verma 3 、Matthieu Terris 3 、Tasnim Dardouri 3 、 Kavya Gupta 3 分、Ana Neacsu 3 分、Frank Chemouni 7 分、Meriem Sefta 5 分、Paul Jehanno 5 分、Imad Bousaid 9 分、Yannick Boursin 9 分、Emmanuel Planchet 9 分、Mikael Azoulay 9 ,乔斯林·达查里 5 ,法比安·布鲁波特 5 、阿德里安·冈萨雷斯 5 、奥利维尔·德阿纳 5 、让-巴蒂斯特·希拉蒂 5 、凯瑟琳·舒特 5 、让-克里斯托夫·佩斯凯 3 、雨果·塔尔博特 3 、艾洛迪·普罗尼耶 5 、吉尔斯·温里布5、托马斯·克洛泽尔(Thomas Clozel)5、法布里斯·巴莱西(Fabrice Barlesi)6、玛丽-弗朗斯·贝林(Marie-France Bellin)2.4、迈克尔·G·B·布鲁姆(Michael G. B. Blum)5*。
目的:本研究使用来自印度南部的前瞻性代表性数据集来开发和评估多模式机器学习模型,以区分细菌和真菌性角膜炎。设计:机器学习分类器培训和验证研究。参与者:印度马杜赖(Madurai)的Aravind Eye Hospital诊断出患有急性感染性角膜炎的五百九十九名受试者。方法:我们使用了前瞻性的,连续收集的,代表性的数据集(Madurai数据集)收集的前瞻性,连续收集的代表性数据集,并比较了3种预测模型,以区分细菌和真菌角膜炎。这些模型包括一个临床数据模型,使用效率网状结构的计算机视觉模型以及将成像和临床数据都结合在一起的多模式模型。我们将Madurai数据集分为70%的火车/验证和30%的测试集。进行了模型训练,并进行了五重交叉验证。我们还比较了由Madurai训练的计算机视觉模型的性能与具有相同架构的模型,但对从多个先前的细菌和真菌性角膜炎随机临床试验(RCT)(RCT训练的计算机视觉模型)进行了培训。主要结果指标:主要评估度量是Precision-Recall曲线(AUPRC)下的面积。二级指标包括接收器操作特征曲线(AUROC),准确性和F1分数下的区域。与计算机视觉模型相比,多模式模型并不能显着提高性能。眼科科学2025; 5:100665ª2024,美国眼科学会。结果:由Madurai训练的计算机视觉模型优于临床数据模型和持有测试集的RCT训练的计算机视觉模型,其AUPRC 0.94(95%的置信间隔:0.92 E 0.96),AUROC 0.81(0.76 E 0.85)(0.76 E 0.85)(0.76 E 0.85),精度为77%和F1 0.85。结论:传染性角膜炎的表现最佳的机器学习分类是使用Madurai数据集训练的计算机视觉模型。这些发现表明,基于图像的深度学习可以显着增强感染性角膜炎的诊断能力,并强调使用前瞻性,连续收集的,代表性的机器学习模型培训和评估的重要性。财务披露:本文末尾的脚注和透视性可以在脚注和验证中找到。这是CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)下的开放访问文章。
学院,印度普鲁切里(Puducherry),在一系列职业中摘要,例如文本输入,图像和识别语音,深度学习的结合已成为处理困难识别工作的重大技术进步,评估对深度学习的多种方式进行了插图研究,这些方法已更改了多种领域,将几个领域的重点放在了尖端技术上。一种强大的深度学习方法表明,以识别目标识别和图像划分的图像的出色功效涉及使用卷积的神经网络。通过转移学习的发展使训练有素的模型可以使用较少的信息部署到进一步的专业职业,从而提高了其效率。文本消息识别以及语言主要发展到深度学习和实例,例如复发性神经网络和长期记忆或系统。这些原型在创建信息,理解环境以及管理自然语言任务中的语言处理范围方面表现出色,包括查询答案,设备解释和评估情感。尽管有限的信息有限,但验证的语言原型的实施仍在文本相关操作的性能方面取得了重大改善。当前,复发性的神经网络用于深度学习进行语音识别,以达到高解释的语音效率以构成文本。关键字:自然语言处理,深度学习,复发性神经网络,卷积神经网络1。深度学习引言人工神经网络模仿人类大脑的结构,是基础深度学习,机器学习的一部分已成为过去十年来人工智能(AI)指数进步的推动力。深度学习算法特别擅长处理大量数据,允许机器直接从原始数据输入(例如文本,语音或图像)中学习,而无需手动功能工程。深度学习的主要创新是其通过多个处理单元或神经元多层学习DT的层次结构表示的能力。这些层逐渐提取更高级别的特征,这就是为什么深度学习对语音识别,自然语言理解和图像识别等合作任务特别有用的原因。
随着 2D 传播模型的成功,2D AIGC 内容已经改变了我们的生活。最近,这一成功已扩展到 3D AIGC,其中最先进的方法可以从单个图像或文本生成带纹理的 3D 模型。但是,我们认为当前的 3D AIGC 方法仍然没有完全释放人类的创造力。我们经常想象由多模态输入制成的 3D 内容,例如如果我的宠物兔子在桌子上吃甜甜圈会是什么样子。在本文中,我们探索一种新颖的 3D AIGC 方法:从 IDEA 生成 3D 内容。IDEA 是由文本、图像和 3D 模型组成的多模态输入。据我们所知,这种具有挑战性和令人兴奋的 3D AIGC 设置以前尚未被研究过。我们提出了新的框架 Idea23D,它结合了基于大型多模态模型 (LMM) 和现有算法工具的三个代理。这三个基于 LMM 的代理负责提示生成、模型选择和反馈反射。它们在完全自动化的循环中相互协作和批评,无需人工干预。然后,该框架生成一个文本提示,以创建与输入 IDEA 紧密一致的 3D 模型。我们展示了令人印象深刻的 3D AIGC 结果,超越了以前的方法。为了全面评估 Idea23D 的 3D AIGC 功能,我们引入了 Eval3DAIGC-198 数据集,其中包含 198 个用于 3D 生成任务的多模态输入。该数据集评估生成的 3D 内容与输入 IDEA 之间的一致性。我们的用户研究和定量结果表明,Idea23D 显著提高了 3D 生成的成功率和准确性,并且在各种 LMM、文本转图像和图像转 3D 模型中具有出色的兼容性。代码和数据集可在 https://idea23d.github.io/ 获得。
摘要 在日常临床实践中,临床医生整合可用数据以确定患者疾病或临床结果的诊断和预后概率。对于疑似或已知心血管疾病的患者,通常会执行几种解剖和功能成像技术来协助这项工作,包括冠状动脉计算机断层扫描血管造影 (CCTA) 和核心脏病学成像。正电子发射断层扫描 (PET)、单光子发射计算机断层扫描 (SPECT) 和 CT 硬件和软件的不断改进已导致诊断性能的提高以及这些成像技术在日常临床实践中的广泛应用。然而,人类解释、量化和整合这些数据集的能力是有限的。新标记的识别和机器学习 (ML) 算法的应用,
许多农村社区和小镇正在改善步行,骑自行车,公共交通和出租车服务,以为非驾驶员提供流动性,改善公共健身和健康并支持经济发展。摘要多模式计划创建了社区,可以通过步行,骑自行车和公共交通工具到处走走。这为个人和社区提供了各种直接和间接的好处。本报告探讨了为什么以及如何在农村地区和小镇上实施更多的多模式规划。当前的趋势正在增加对农村社区非自动旅行选择的需求,包括人口老龄化,贫困越来越大,健康和安全问题不断增长以及不断增长的旅游业。各种策略可以帮助农村社区改善和连接步行,骑自行车,公共交通,包括创新的设施和服务以及智能增长发展政策。本报告中描述的新计划资源可以帮助农村社区和小城镇制定综合的多模式计划和计划。
摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。