随着 2D 传播模型的成功,2D AIGC 内容已经改变了我们的生活。最近,这一成功已扩展到 3D AIGC,其中最先进的方法可以从单个图像或文本生成带纹理的 3D 模型。但是,我们认为当前的 3D AIGC 方法仍然没有完全释放人类的创造力。我们经常想象由多模态输入制成的 3D 内容,例如如果我的宠物兔子在桌子上吃甜甜圈会是什么样子。在本文中,我们探索一种新颖的 3D AIGC 方法:从 IDEA 生成 3D 内容。IDEA 是由文本、图像和 3D 模型组成的多模态输入。据我们所知,这种具有挑战性和令人兴奋的 3D AIGC 设置以前尚未被研究过。我们提出了新的框架 Idea23D,它结合了基于大型多模态模型 (LMM) 和现有算法工具的三个代理。这三个基于 LMM 的代理负责提示生成、模型选择和反馈反射。它们在完全自动化的循环中相互协作和批评,无需人工干预。然后,该框架生成一个文本提示,以创建与输入 IDEA 紧密一致的 3D 模型。我们展示了令人印象深刻的 3D AIGC 结果,超越了以前的方法。为了全面评估 Idea23D 的 3D AIGC 功能,我们引入了 Eval3DAIGC-198 数据集,其中包含 198 个用于 3D 生成任务的多模态输入。该数据集评估生成的 3D 内容与输入 IDEA 之间的一致性。我们的用户研究和定量结果表明,Idea23D 显著提高了 3D 生成的成功率和准确性,并且在各种 LMM、文本转图像和图像转 3D 模型中具有出色的兼容性。代码和数据集可在 https://idea23d.github.io/ 获得。
摘要 主成分分析 (PCA) 和线性混合效应模型 (LMM) 有时结合使用,是最常见的遗传关联模型。先前的 PCA-LMM 比较给出了混合结果、不明确的指导,并且有几个局限性,包括不改变主成分 (PC) 的数量、模拟简单的种群结构以及对真实数据和功效评估的使用不一致。我们在现实基因型和复杂性状模拟中评估了不同数量的 PC 的 PCA 和 LMM,包括混合家庭、亚种群树和具有模拟性状的真实多民族人类数据集。我们发现没有 PC 的 LMM 通常表现最佳,在家庭模拟和没有环境影响的真实人类数据集和性状中具有最大的效果。人类数据集上 PCA 表现不佳主要是由大量远亲而不是较少数量的近亲造成的。虽然 PCA 已知无法处理家庭数据,但我们报告了家庭相关性在遗传多样化的人类数据集中的强烈影响,而这无法通过修剪近亲来避免。用 LMM(包括这些标签,而不是 PC)可以更好地建模由地理和种族驱动的环境影响。这项工作更好地描述了 PCA 与 LMM 相比在为关联研究建模多种族人类数据的复杂关联结构方面的严重局限性。
社会情报对于了解复杂的人类表达和社会影响至关重要。虽然大型的多模型模型(LMM)在社会智能问题答案中表现出了显着的表现(SIQA),但由于在预训练阶段中基于文本的数据的独立流行,它们仍然倾向于产生依靠语言先验的回答,并依靠相关上下文。要解释LMM的上述语言偏见,我们采用了一个结构的因果模型,并认为反事实推理可以通过避免LMMS内部常识知识与给定的结论之间的虚假相关性来减轻偏见。但是,构建多模式反事实样本是昂贵且具有挑战性的。为了应对上述挑战,我们提出了一个输出d Istribution c校准网络,该网络具有v irtual c-osunterfactual(dcvc)数据。DCVC设计了一个新颖的外部分配校准网络,以减轻负面语言偏见的影响,同时保留有益的先验。扰动被引入LMMS的输出分布,以模拟从上下文中的分布的分布转移,该分布被用来构建相反的aug augs数据。在多个数据集上进行的实验证明了我们提出的方法的有效性和可实现性。
随着高通量遗传数据的出现,人们尝试使用线性混合模型 (LMM) 从远亲群体的全基因组 SNP 数据中估计遗传力。然而,在大型群体研究中拟合这样的 LMM 极具挑战性,因为它涉及高维线性代数运算。在本文中,我们提出了一种名为 PredLMM 的新方法,该方法近似于上述 LMM,其灵感来自遗传聚合和高斯预测过程的概念。PredLMM 的计算复杂度明显优于大多数现有的基于 LMM 的方法,因此为估计大规模群体研究中的遗传力提供了一种快速的替代方法。从理论上讲,我们表明,在遗传聚合模型下,我们近似的极限形式是著名的大高斯过程似然的预测过程近似,该近似具有完善的准确性标准。我们通过广泛的模拟研究说明了我们的方法,并用它来估计英国生物银行队列中多种数量性状的遗传性。
• 投资或提供非营利或公共基础设施,包括计算能力和公共数据集,供公共、私人和非营利部门的开发人员使用,要求用户遵守道德原则和价值观以换取访问权限。 • 使用法律、政策和法规确保医疗保健和医学中使用的 LMM 和应用程序(无论与人工智能技术相关的风险或利益如何)符合影响个人尊严、自主权或隐私等的道德义务和人权标准。 • 在资源允许的情况下,指派现有或新的监管机构评估和批准用于医疗保健或医学的 LMM 和应用程序。 • 当 LMM 大规模部署时,由独立第三方引入强制性的发布后审计和影响评估,包括数据保护和人权评估。审计和影响评估应公布,并应包括按用户类型(例如按年龄、种族或残疾)分类的结果和影响。 • LMM 的开发人员应确保:
已知低分子量 (LMM) 硫醇化合物对各种生物体的许多生物过程都很重要,但 LMM 硫醇在厌氧菌中的研究不足。在这项工作中,我们研究了模型铁还原细菌 Geobacter sulphurreducens 对具有与半胱氨酸相关化学结构的纳摩尔浓度 LMM 硫醇的产生和周转。我们的结果表明,G. sulphurreducens 根据细胞生长状态和外部条件严格控制硫醇的产生、排泄和细胞内浓度。内源性半胱氨酸的产生和细胞输出与 Fe(II) 的细胞外供应相结合,这表明半胱氨酸排泄可能在细胞向铁蛋白的运输中发挥作用。添加过量的外源性半胱氨酸导致细胞将半胱氨酸快速大量地转化为青霉胺。添加同位素标记的半胱氨酸的实验证实,青霉胺是由半胱氨酸 C-3 原子二甲基化形成的,而不是通过对半胱氨酸暴露的间接代谢反应形成的。这是首次报道该化合物的从头代谢合成。青霉胺的形成随着外部暴露于半胱氨酸而增加,但该化合物并未在细胞内积累,这可能表明它是 G. 硫还原菌维持半胱氨酸稳态的代谢策略的一部分。我们的研究结果强调并扩展了严格厌氧菌中介导半胱氨酸样 LMM 硫醇稳态的过程。青霉胺的形成尤其值得注意,这种化合物值得在微生物代谢研究中引起更多关注。
大型多模型模型(LMM)在单图像视觉语言任务中显示出了很好的结果。但是,他们解决多图像视觉语言任务的能力尚待改进。OpenFlamingo,EMU2和IDEFICS等现有的LMM通过对数亿个既没有有效又不有效的嘈杂的交织图像文本数据进行预训练,从而获得了多图像的能力。在本文中,我们旨在通过使用学术级别的资源进行指导调整来构建强大的多图像LMM。因此,我们精心构建包含721k多图像指导数据的螳螂教学,以培训螳螂模型家族。教学调整使螳螂具有不同的多图像技能,例如共同参考,比较,推理和时间理解。我们评估了8个多图像基准和6个单图像基准的螳螂。Mantis -IDEFICS2可以在所有多图像基准上实现SOTA结果,并击败最强的多图像基线,即IDEFICS2-8B平均13个绝对点。值得注意的是,IDEFICS2-8B已在140m的交织多图像数据上进行了预训练,该数据比Mantis-Instruct大200倍。我们观察到螳螂在持有的基准和持有的基准上表现出色,这表明其概括能力。我们进一步评估了单图像基准上的Mantis,并证明Mantis在与COGVLM和EMU2相当的情况下还保持了强劲的单像性能。我们的结果表明,多图像能力不一定是通过大规模的预训练获得的,而是通过低成本的指导调整可以获得它们。螳螂的培训和评估为未来的工作铺平了道路,以提高LMMS的多图像能力。
● 研发支持和知识发现解决方案的开发 构建医疗数据平台,以推进研究,开发新的治疗方法、药物和设备,并提高医疗质量。 ● 患者和医疗机构支持解决方案的开发 通过支持医疗环境和患者生活的解决方案,提高医疗质量,培养新的医疗服务提供者,并创造经济价值。 ● 开发支持地方政府和医疗政策的解决方案 通过构建医疗数据平台协助地方政府决策,优化医疗和财政资源的配置。 ● 开发用于数字孪生的先进医疗信息系统 开发基础设施和技术,以整合来自不同供应商的电子病历和部门系统的医疗数据。 ● 开发大规模医疗数据分析基础设施技术 开发高效管理、高速处理和高级分析大规模多样化数据的基础技术,以及用于医疗文档的自然语言处理(NLP)技术。 ● 综合医疗系统中的生成性人工智能的开发 开发医学 LLM/LMM 平台和应用程序,并构建医疗数据平台,以支持持续的 LLM/LMM 开发,实现标准化和集成的医疗信息。
来自扩散模型的大量合成视频对信息安全性和真实性构成威胁,从而导致对生成的内容检测的需求不断增长。但是,现有的视频级检测算法主要集中于检测面部伪造,并且通常无法识别具有各种语义范围的扩散生成的内容。为了推进视频取证领域,我们提出了一种创新算法,称为多模式检测(MM-DET),用于检测扩散生成的视频。mm-det利用了大型多模式模型(LMM)的深刻感知和全面能力,通过从LMM的多模式空间中产生多模式伪造表示(MMFR),从而增强了其检测到其不看见的伪造内容的能力。此外,MM-DET还利用了一个内在的框架注意(IAFA)机制来在时空结构域中进行特征增强。动态融合策略有助于改善融合的伪造代表。此外,我们在广泛的伪造视频中构建了一个称为扩散视频取证(DVF)的综合扩散视频数据集。mm-det在DVF中实现了最先进的性能,证明了我们的算法的有效性。源代码和DVF均可在链接中获得。
API Application Programming Interface BC Behavior Cloning BERT Bidirectional Encoder Representations from Transformers CaP Code - as - policies GPT Generative Pre - trained Transformer LLM Large Language Model LMM Large Multimodal Model LMP Language Model generated Programs PaLI Pathways Language and Images PaLM Pathways Language Model RL Reinforcement Learning RT Robotics Transformer ViT Vision Transformer VLA Vision - Language - Action VLM Visual Language Model VQA Visual问题回答