摘要 - 多型大型模型(MLMS)正在成为一个重要的研究重点,将强大的大语言模型与多模式学习结合在一起,以跨不同数据模式执行复杂的任务。本评论探讨了MLM中最新的开发和挑战,强调了它们在实现人工通用智能和作为世界模型的途径方面的潜力。我们提供了关键技术的概述,例如多模式的思想链(M-COT),多模式指令调整(M-IT)和多模式的内在学习(M-ICL)。此外,我们讨论了多模型模型的基本技术和特定技术,突出了它们的应用,输入/输出方式和设计特征。尽管取得了重大进步,但统一的多模型模型的发展仍然难以捉摸。我们讨论了3D生成和体现智能的集成,以增强世界模拟功能,并提出将外部规则系统纳入改进推理和决策。最后,我们概述了未来的研究指示,以应对这些挑战并推进该领域。
认知科学家先驱3D空间推理是所有智力过程的基础。多模式大型语言模型(MLMS)由于对2D图像的印象令人印象深刻而被广泛采用,已被证明缺乏3D空间推理。对这些模型赋予的精确3D空间功能的评估有限。现有的基准用于探测MLMS中空间理解的基准主要集中于粗级空间意识(例如在左侧的左侧),或在预测给定对象查询的边界框时。相反,我们希望对模型对整个场景的语义和空间理解进行更全面的评估。因此,我们提出了一个基准R2D3,其中MLM的任务是将2D图像表示为具有精确3D位置和姿势的一组语义资产,该姿势可以准确地重建图形引擎中的3D场景。“通过综合分析”的这一任务要求该模型对组成场景及其精确3D相对位置的元素有全面的了解。我们的基准包括AI2THOR环境中的12K室内场景,并且与几个下游应用程序(例如体现的AI,空间推理和导航任务)兼容。使用我们的基准测试,我们探索了鼓励精确空间推理的MLM的调整技术。出乎意料的是,我们发现在基准的训练集上进行的常规微调虽然足以理解语义,但不足以了解场景中对象的精确3D位置和姿势。包括深度或通过标记图像中的点以及在训练期间包括其3D坐标(包括其3D坐标)的深度或传达精确的摄像机场取向,使该模型可以在测试时改进3D空间估计。我们希望R2D3基准测试将有助于探索探索设计选择的进步,从而改善对MLMS的精确3D空间理解。
摘要Semarang City面临着重大的环境挑战,土地沉降是一个关键问题,它加剧了洪水的淹没并加剧了洪水破坏。随着城市地区的扩大和气候变化的影响变得更加明显,理解和减轻洪水风险对于可持续的城市发展和灾难管理至关重要。因此,本研究旨在评估使用机器学习来改善洪水管理的土地沉降引起的洪水风险。使用五种不同的机器学习模型(MLMS)来评估洪水风险,其中包括决策树(DT),K-Nearest邻居(KNN),逻辑回归(LR),支持向量机(SVM)和随机森林(RF)。此外,还使用了14个不同的指数和2884个样本点来训练和测试模型,并通过高参数优化确保了比较中的公平性。为了解决样本数据集中的不确定性,使用洪水点来验证洪水风险分区图的合理性。该研究调查了不同洪水风险水平的驱动因素,重点是洪水区域,以确定最高风险地区的洪水风险机制。结果表明,KNN表现最好,并提供了模型中最合理的洪水风险价值。同时,使用KNN模型的平均得分降低,将曲线数(CN),距离河流距离(Dtriver)和建筑物密度(BD)确定为洪水风险的前三个重要因素。最后,这项研究扩大了机器学习在洪水风险评估中的应用,并加深了对洪水风险潜在机制的理解,并提供了对更好的洪水风险管理的看法。