摘要和含义 • LLM 在 HE/HTA 中的应用是一个新兴话题。已发表的证据很少,难以复制(代码和数据尚未提供)且主要是探索性的(没有已发表的证据表明 LLM 被用于从头建模)。几个潜在的用例仍未得到检验,包括确定性敏感性分析、模型验证或模型调整(超出更新模型输入)。 • 响应准确性是 LLM 实施最常见的障碍。研究提出的克服这一问题的研究建议侧重于通过更有效地使用模型(例如通过快速优化)来提高准确性。 • 除了这种方法之外,未来的工作还应探索研究如何有效实施人机交互方法。当 LLM 响应准确性不确定或变化太大而无法无人监督时,这些方法可能特别有用。它们还将帮助研究人员遵守当前的 NICE 指南 1,该指南建议采用人机交互方法来保持研究结果的质量和可信度。
P-D-08研究摘要用于医学图像分割的黑盒改编Jay Nitin Paranjape; Shameema Sikder,医学博士,FACS; S. Swaroop Vedula,MBBS,博士,MPH;以及马里兰州巴尔的摩的Vishal M. Patel Johns Hopkins大学;约翰·霍普金斯大学医学院,马里兰州巴尔的摩简介:大型基础模型在一般计算机视觉任务中具有先进的图像细分,但是由于接受了非医疗数据培训,它们在医学图像细分方面经常表现不佳。当前用于将这些模型调整为医疗任务的方法通常假设对模型参数完全访问,这并不总是可行的,因为许多模型仅作为API或黑框可用。此外,对此类模型进行微调可能是计算密集的,并且隐私问题限制了与第三方共享医疗数据。方法:为了解决这些挑战,我们提出了BAPS(用于促进分割的黑盒改编),这是一种新型技术,旨在在黑盒条件下适应医疗图像分割中的基础模型。BAPS由两个组成部分组成:一个图像促销解码器(IP解码器),该解码器(IP解码器)从输入映像和提示中生成视觉提示,以及零订单优化(Zoo)方法,SPSA-GC,该方法可更新IP解码器,而无需通过基础模型进行回音。此方法允许在不了解模型的权重或梯度的情况下进行适应,因此它非常适合黑色盒子方案。结果:BAPS以四种不同的医学成像方式进行了测试,表明原始基础模型的性能大约提高了4%。公开可用的BAPS代码。实现了这种改进,而没有与基础模型的内部参数进行任何直接相互作用,从而突出了我们的黑盒适应方法的有效性。结论:BAPS为将基础模型调整为医学图像分割提供了创新的解决方案,尤其是在模型参数无法访问时。通过将图像推出解码器与零订单优化方法相结合,BAP可以有效地提高分割性能,而无需访问模型的内部结构。这种方法解决了计算和隐私方面的关键挑战,为在医学成像中应用基础模型提供了新的途径。
我们检验了以下假设:从机器人技术(Active Interonnect(AICON))中的算法MIC信息处理模式可以用作实现人类视力的有用表示。我们为两种视觉幻觉创建了基于AICON的计算模型:形状粘合颜色的后代和通过运动沉默。模型再现了人类中看到的效果,并产生了我们通过人类心理物理实验验证的新颖预测。模型预测与实验结果之间的不一致是通过迭代模型调整解决的。对于形状粘合颜色的后效应,该模型预测和例外证实了对概述形状操作的后效应较弱,并且在感知后的后效应中的个体差异。为了通过运动,该模型预测和实验验证了意外趋势以及个体差异。我们的发现表明了AICON捕获人类视觉信息处理相关方面的能力,包括个人的变异性。它突出了合成学科和生物学科之间新型合作的潜力。关键字:计算建模,vi-sual智能,跨学科,概念,视觉错觉
本文通过利用大型预训练模型来探讨合成数据的潜力,尤其是在面对分布变化时。al-尽管生成模型的最新进展已经阐明了跨分布数据发生的几项先前的作品,但它们需要模型调整和复杂的设置。为了绕过这些缺点,我们介绍了主要的g a a a a a a a a embeddings(doge),这是一个跨分布的插件语义数据augpection框架,几乎没有射击设置。我们的方法以潜在形式提取源和所需数据分布之间的差异,然后引导生成过程,以补充无数多种合成样本的训练集。我们的评估是在几个射击范式下进行亚种群偏移和三个领域适应方案进行的,表明我们的多功能方法改善了各个任务的性能,需要进行动手干预或复杂的调整。Doge铺平了毫不费力地生成遵循测试分布的现实,可转让的合成数据集的道路,从而加强了下游任务模型的现实世界效率。
考虑到大型材料空间,热电材料的探索挑战,再加上掺杂和合成途径的多样性所带来的自由度的增加。在这里,已合并历史数据,并通过使用错误纠正学习(ECL)进行实验反馈进行更新。这是通过从先验数据集中学习而实现的,然后将模型调整为合成和表征的差异,这些差异很难参数化。This strategy is thus applied to discovering thermoelectric materials, where synthesis is prioritized at temperatures < 300 ○ C. A previously unexplored chemical family of thermoelectric materials, PbSe:SnSb, is documented, finding that the best candidate in this chemical family, 2 wt% SnSb doped PbSe, exhibits a power factor more than 2 × that of PbSe.本文的研究表明,与由最先进的机器学习(ML)模型提供动力的高通量搜索相比,闭环实验策略减少了所需的实验数量,以将优化材料数量高达3×。还可以观察到,这种改进取决于ML模型的准确性,以表现出减少回报的方式:一旦达到了一定的精度,与实验途径相关的因素开始主导趋势。
考虑到大型材料空间,热电材料的探索挑战,再加上掺杂和合成途径的多样性所带来的自由度的增加。在这里,已合并历史数据,并通过使用错误纠正学习(ECL)进行实验反馈进行更新。这是通过从先验数据集中学习而实现的,然后将模型调整为合成和表征的差异,这些差异很难参数化。This strategy is thus applied to discovering thermoelectric materials, where synthesis is prioritized at temperatures < 300 ○ C. A previously unexplored chemical family of thermoelectric materials, PbSe:SnSb, is documented, finding that the best candidate in this chemical family, 2 wt% SnSb doped PbSe, exhibits a power factor more than 2 × that of PbSe.本文的研究表明,与由最先进的机器学习(ML)模型提供动力的高通量搜索相比,闭环实验策略减少了所需的实验数量,以将优化材料数量高达3×。还可以观察到,这种改进取决于ML模型的准确性,以表现出减少回报的方式:一旦达到了一定的精度,与实验途径相关的因素开始主导趋势。
在发射时,将为全球陆地生成两种植被指数 (VI) 算法。一种是标准归一化差异植被指数 (NDVI),它被称为现有 NOAA-AVHRR 衍生 NDVI 的“连续性指数”。在发射时,将有来自 NOAA-AVHRR 系列的近 20 年的 NDVI 全球数据集(1981 - 1999 年),可以通过 MODIS 数据进行扩展,以提供用于操作监测研究的长期数据记录。另一种是“增强型”植被指数 (EVI),它对高生物量区域的灵敏度更高,并且通过分离冠层背景信号和减少大气影响来改善植被监测。这两个 VI 在全球植被研究中相互补充,并改进了冠层生物物理参数的提取。还使用了一种新的合成方案,可以减少角度、太阳目标传感器变化。网格植被指数图使用 MODIS 表面反射率(针对分子散射、臭氧吸收和气溶胶进行了校正,并使用 BRDF 模型调整至最低点)作为 VI 方程的输入。网格植被指数将包括带有统计数据的质量保证 (QA) 标记,用于指示 VI 产品和输入数据的质量。产品可以总结为:
摘要。SRGB图像现在是计算机视觉研究中预训练视觉模型的主要选择,这是由于它们的易用性和效果存储。同时,原始图像的优点在于它们在可变的现实世界中的较丰富的物理信息。对于基于相机原始数据的计算机视觉任务,大多数现有研究采用了将图像信号处理器(ISP)与后端网络集成的方法,但经常忽略ISP阶段和后续网络之间的相互作用功能。从NLP和CV区域中正在进行的适配器研究中汲取灵感,我们介绍了Raw-Adapter,这是一种旨在将SRGB预先训练的模型调整为相机原始数据的新颖方法。RAW-ADAPTER包括输入级适配器,这些适配器采用可学习的ISP阶段来进行AD-RAW输入,以及模型级别的适配器,以在ISP阶段和随后的高级网络之间建立连接。此外,Raw-Adapter是一个可以在各种Compoter Vision Frameworks中使用的通用框架。在不同的照明条件下进行了丰富的实验,已经显示了我们算法的最先进(SOTA)绩效,证明了其在一系列现实世界和合成数据集中的有效性和效率。代码可在此URL上找到。
视频生成模型已经证明了产生令人难以置信的单眼视频的功能,但是,3D立体视频的产生仍然不足。我们提出了一种使用现成的单眼视频生成模型的无姿势和无训练方法,用于发电3D立体视频。我们的方法使用估计的视频深度将生成的单眼视频扭曲到立体基线的相机视图中,并采用了一种新型的框架矩阵视频介绍框架。该框架利用视频代理模型来从不同的时间戳和视图中观察到的框架。这种有效的方法会产生一致且具有语义相干的立体视频,而无需场景优化或模型调整。此外,我们开发了一个不合格的边界重新注射方案,该方案通过减轻潜在空间中分离的区域传播的负面影响进一步提高视频介绍的质量。我们通过对包括Sora(Brooks等,2024),Lumiere(Bar-Tal等,2024),Walt(Gupta等,2023)和Zeroscope(Wang等人(Wang et al。,2023A)的视频进行实验来验证我们提出的方法的效率。实验表明我们的方法比以前的方法具有显着改善。项目页面https://daipengwa.github.io/svg_projectpage/
摘要 - 作为深度学习技术的进步自主驾驶(AD),现有的AD方法遇到了性能限制,尤其是在处理角案例,可解释性和验证能力中,这对于连接和自动驾驶汽车的安全至关重要。多模式大语言模型(MLLM)表现出了非凡的理解和推理能力,为克服传统AD算法面临的挑战提供了一个变革性的机会。我们对MLLM在AD中的应用进行了全面研究,探索了它们解决传统AD算法面临的关键挑战的潜力。我们构建了一个视觉问题 - 回答数据集,用于模型调整,以解决MLLM中幻觉和逻辑分析不良问题。然后,我们将广告决策过程分解为场景的理解,预测和决策,允许MLLM构建链条,以逐步制定决策。随后,我们提出了一个新的框架,使模型能够在有限的本地计算资源,很少的射击,多模式和复杂方案的条件下执行广告任务,从而增强了未来AD系统部署的功能。我们广泛的实验和深度分析证明了MLLM的AD的显着优势。我们还讨论了现有方法的优势和劣势,并在AD中提供了对MLLM的详细前景。