通过脑机接口,重建所看到的人脑活动图像连接了人机视觉和计算机视觉。由于个体之间大脑功能存在固有差异,现有文献主要集中于使用每个人各自的脑信号数据为每个人获取单独的模型,而忽略了这些数据之间的共性。在本文中,我们设计了心理测量学,这是一个全方位模型,用于重建从不同受试者获得的功能性磁共振成像 (fMRI) 图像。心理测量学包含一个全方位专家混合 (Omni MoE) 模块,其中所有专家共同努力捕捉受试者间的共性,而与特定受试者参数相关的每个专家则负责处理个体差异。此外,心理测量学还配备了一种检索增强推理策略,称为 Ecphory,旨在通过检索预先存储的特定受试者记忆来增强学习到的 fMRI 表征。这些设计共同使心理测量变得万能而高效,使其能够捕捉受试者之间的共性和个体差异。因此,增强的 fMRI 表征可作为条件信号来指导生成模型重建高质量逼真的图像,从而使心理测量在高级和低级指标方面都成为最先进的技术。
桌面仿真。Simulink 中的桌面仿真使您能够验证 BMS 设计的功能方面,例如充电放电行为(使用单电池等效电路公式)、电子电路设计以及反馈和监督控制算法。在桌面上,使用行为模型模拟电池系统、环境和算法。例如,您可以探索主动与被动电池平衡配置和算法,以评估每种平衡方法对给定应用的适用性。您可以使用桌面仿真探索新的设计理念,并在制作硬件原型之前测试多种系统架构。您还可以在桌面仿真中执行需求测试,例如通过验证在检测到隔离故障时接触器是否无法打开或关闭。
亚里士多德 [ 公元前 350 年 ] 列出了人类常见推理错误,其中一条比较微妙的谬误是“合成谬误”,推理者认为,如果一个命题对整体的每个元素都成立,那么它对整体也一定成立。卢卡斯模型提供了一个反例。从任何个体(原子)行为者的角度来看,决定多储蓄一单位确实会带来更多的未来资源,数量为 R t +1 。但从整个社会的角度来看,如果每个人都决定做同样的事情(多储蓄一单位),那么在 t + 1 时期对总资源就不会产生任何影响。换句话说,对任何个体行为者来说,“资本边际产量”似乎都是 R t +1 ,但对整个社会来说,资本边际产量为零。认为整个社会的回报必须与个人可获得的回报相同这一命题是错误的,因为它隐含地假设普遍的储蓄意愿不会产生一般均衡效应(或者更广泛地说,一个人做出的决定与另一个人的决定之间没有相互作用)。卢卡斯模型提供了一个反例,如果每个人的偏好都发生变化(例如,每个人的 ϑ 都下降),未来资产的价格就会受到影响——事实上,它受到的影响足以抵消对未来股息所有权增加的渴望(因为资产的供应量是固定的,需求必须与预先存在的供应量相协调)。亚里士多德是个聪明人!
最近,扩散模型 (DM) 已应用于磁共振成像 (MRI) 超分辨率 (SR) 重建,并表现出令人印象深刻的性能,尤其是在细节重建方面。然而,当前基于 DM 的 SR 重建方法仍然面临以下问题:(1)它们需要大量迭代来重建最终图像,效率低下且消耗大量计算资源。(2)这些方法重建的结果通常与真实的高分辨率图像不一致,导致重建的 MRI 图像出现明显失真。为了解决上述问题,我们提出了一种用于多对比 MRI SR 的有效扩散模型,称为 DiffMSR。具体而言,我们在高度紧凑的低维潜在空间中应用 DM 来生成具有高频细节信息的先验知识。高度紧凑的潜在空间确保 DM 只需要几次简单的迭代即可产生准确的先验知识。此外,我们设计了 Prior-Guide Large Window Transformer (PLWformer) 作为 DM 的解码器,它可以扩展感受野,同时充分利用 DM 产生的先验知识,以确保重建的 MR 图像保持不失真。在公共和临床数据集上进行的大量实验表明,我们的 DiffMSR 1 优于最先进的方法。
评估心肌的形状和运动状态对于诊断心血管疾病至关重要。然而,电影磁共振 (CMR) 成像以 2D 切片为主,其大切片间距对切片间形状重建和运动获取提出了挑战。为了解决这个问题,我们提出了一种将运动和形状分离的 4D 重建方法,该方法可以从有限切片获得的给定稀疏点云序列预测间/内形状和运动估计。我们的框架包括一个神经运动模型和一个舒张末期 (ED) 形状模型。隐式 ED 形状模型可以学习连续边界并鼓励运动模型在没有地面真实变形监督的情况下进行预测,并且运动模型通过将任意点从任意阶段变形到 ED 阶段来实现形状模型的规范输入。此外,构建的 ED 空间可以对形状模型进行预训练,从而指导运动模型并解决数据稀缺问题。我们提出了我们所知的第一个 4D 心肌数据集,并在提出的、公开的和跨模态的数据集上验证了我们的方法,显示出卓越的重建性能并实现了各种临床应用。
人类的视野。这种能力不仅对于诸如对象操纵和导航之类的实践日常任务至关重要,而且在培养人类创造力方面起着关键作用,使我们能够以深度,幽默感和沉浸感进行设想和制作对象。在本文中,我们重新审视了视图综合问题并提出:我们如何学习一般的3D表示以促进可扩展的视图综合?我们试图从以下两个观察结果中调查这个问题:i)到目前为止,目前的最新进展主要集中在训练速度和/或提高效率上[12,18,18,31,48]。值得注意的是,这些进步都共同依赖于体积渲染以进行场景优化。因此,所有这些视图合成方法固有地是场景特定的,再加上全局3D空间坐标。相比之下,我们主张一个范式移动,其中3D表示仅依赖场景颜色和几何形状,学习隐式表示无需地面真相3D几何形状,同时也从任何特定坐标系统中具有重要的独立性。这种区别对于实现可扩展性至关重要,以超越场景指编码所施加的约束。ii)本质上,视图合成更适合作为有条件的生成建模问题,类似于生成图像中的图像[25,60]。随着可用信息的增加,生成的场景变得更加限制,逐渐收敛于地面真相表示。仅给出一组稀疏的参考视图时,所需的模型应提供多个合理的预测,并利用生成表述中的固有随机性,并从自然图像统计信息和从其他图像和对象中学到的语义先验中获取见解。值得注意的是,现有的3D生成模型通常仅支持单个参考视图[20 - 23,44]。我们认为,更理想的生成配方应具有不同级别的输入信息。在这些见解的基础上,我们引入了Eschernet,这是一种图像到图像的条件扩散模型,用于视图合成。Eschernet利用了使用Dot-Product自我注意力的变压器体系结构[51],以捕获参考对目标和目标对目标视图一致性之间的复杂关系。Eschernet中的一个关键创新是相机位置编码(CAPE)的设计,专门代表4个DOF(以对象)和6个DOF相机姿势。这种编码的速率空间结构进入令牌,使模型能够仅基于其相对摄像机的转换来计算查询和密钥之间的自我注意事项。总而言之,Eschernet表现出以下非凡的特征:•一致性:埃舍内特固有地整合了视图的固定性,这要归功于相机位置编码的设计,从而鼓励了对目标对目标和目标视图视图的一致性。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
* 本文受益于 Jay Choi、Bruno Jullien、Todd Keister、Cyril Monnet、Volker Nocke、Yoshiaki Ogura、Jean Tirole、Yu Zhu 以及 2023 年京都数字化和宏观审慎政策研讨会、韩国延世大学平台经济学研讨会、2023 年瑞士夏季货币、银行、支付和金融研讨会、日本应用经济学会 2023 年秋季会议以及西南财经大学(成都)、复旦大学(上海)、南京大学(南京)各种研讨会的参与者的评论。其余错误由我们自己承担。胡感谢中国自然科学基金(拨款 72003041)、上海市浦江计划(拨款 21PJC011)和上海国际金融与经济研究所的资金支持。 Watanabe 感谢日本学术振兴会 (JSPS KAKENHI)(拨款编号 JP23H00054、JP22K20161 和 JP23K17286)和村田科学基金会的资金支持。Zhang 感谢中国教育部(拨款编号 #IRT 17R24 和 #2023JZDZ018)的资金支持。† 复旦大学世界经济研究所;hu bo@fudan.edu.cn。‡ 京都大学经济研究所;watanabe.makoto.2d@kier.kyoto-u.ac.jp。§ 复旦大学中国经济研究中心;junzh 2000@fudan.edu.cn。
文本到图像生成模型正变得越来越流行,公众可以访问。由于这些模型看到大规模的部署,因此有必要深入研究其安全性和公平性,以免消散和永久存在任何形式的偏见。然而,存在的工作重点是检测封闭的偏见集,定义了先验的偏见,将研究限制为众所周知的概念。在本文中,我们解决了出现OpenBias的文本到图像生成模型中开放式偏见检测的挑战,该模型是一条新管道,该管道可识别和量化双质量的严重性,而无需访问任何预编译的集合。OpenBias有三个阶段。在第一阶段,我们利用大型语言模型(LLM)提出偏见,给定一组字幕。其次,目标生成模型使用相同的字幕绘制图像。最后,一个视觉问题回答模型认识到了先前提出的偏见的存在和范围。我们研究了稳定扩散1.5、2和XL强调新偏见的稳定扩散,从未研究过。通过定量实验,我们证明了OpenBias与当前的封闭式偏见检测方法和人类判断一致。