自然产品研究是一种多样化的主题,可产生和利用大量不同类型的数据。基因组,蛋白质组学,代谢组,光谱或(Bio)化学数据可能每个人都可以从不同的角度照亮相同的生化实体,并有能力相互告知。例如,基因组学可以揭示生物体中天然产物产生的遗传基础,而代谢组学可以揭示产生的代谢产物。光谱数据可以提供对这些分子结构特征的见解,并且生化数据可以阐明所涉及的酶促途径。这些综合观点可以对自然产品结构和功能进行更全面的理解。但是,可以表征自然产品科学数据格局
呼吁论文特殊主题:大型多模式模型,大型多模型模型已受到广泛关注,并且在学术界和行业中都经历了爆炸性的增长。他们在内容理解,搜索,建议系统,问答和人类计算机互动等领域表现出了巨大的潜力。本期特刊旨在刺激和发布尖端,原始研究,全面的评论以及有见地的基准研究,但不限于以下领域:(1)大型多模式模型的高级体系结构:深入研究提供无缝集成
尽管通过视觉和语言预处理取得了令人印象深刻的进步,但尚不清楚这种联合学习范式是否可以帮助理解每种单独的方式。在这项工作中,我们通过探测广泛的任务,旨在以细微的方式评估学习代表的质量,对视觉和语言模型和视觉模型进行比较分析。有趣的是,我们的经验观察表明,视觉和语言模型在标签预测任务(例如对象和属性预测)方面更好,而仅视力模型在需要更局部化的密集预测任务下更强大。我们希望我们的研究能阐明语言在视觉学习中的作用,并作为各种训练有素的模型的经验指南。代码将在https://github.com/lizw14/visual_probing上发布。
摘要:对自主驾驶的追求依赖于开发能够做出准确,健壮和快速决策以有效解释驾驶环境的感知系统。对象检测对于理解这些系统核心的环境至关重要。随着计算机视觉(CV)应用中深度学习的出现(DL)的出现,2D对象检测和分类已经显着提高,但它们在提供必要的深度信息方面缺乏,这是理解驾驶环境中的关键要素。因此,3D对象检测成为自动驾驶和机器人技术的基石,提供对象位置的精确估计并增强环境理解。CV社区对3D对象检测的兴趣日益增长,这是由DL模型的演变推动的,包括卷积神经网络(CNN)和变形金刚网络。尽管有这些进步,但在3D对象检测中仍存在诸如不同对象量表,有限的3D传感器数据和阻塞等挑战。为了应对这些挑战,研究人员正在探索多模式技术,这些技术结合了来自摄像机,雷达和激光镜等多个传感器的信息,以增强感知系统的性能。本调查对基于多模式融合的3D对象检测方法进行了详尽的审查,重点是基于CNN和基于变压器的模型。它强调了为完全自动驾驶汽车提供不同传感器的必要性,以确保可靠和可靠的操作。调查探讨了相机,激光雷达和雷达传感器的优点和缺点。此外,它总结了自治数据集并研究了基于多模式融合方法的最新进步。调查结束时,强调了正在进行的挑战,开放问题和未来研究的潜在方向。
精神疾病,这是一个重大的全球健康问题,涵盖了全世界数百万人的广泛心理疾病(1,2)。这些疾病的后果超出了个人,影响家庭,社区和经济体。例如,仅抑郁症是全球残疾的主要原因,精神障碍是全球整体疾病负担的主要因素(3,4)。精神疾病的社会影响是深远的,涵盖了由于生产力失去,医疗保健费用以及降低生活质量的无形而巨大的成本(5,6)。此外,心理健康障碍会加剧社会问题,例如无家可归和失业,从而造成贫困和疾病的恶性循环(7)。
摘要 - 将对话代理集成到我们的日常生活中已经变得越来越普遍,但是这些代理中的许多代理无法与人类进行深入的互动。尽管如此,仍然存在明显的数据集,这些数据集从人类机器人交互对话中捕获了多模式信息。为了解决这一差距,我们已经开发了一个个人情感机器人对话系统(Percy),并记录了一个新型的多模式数据集,其中包含丰富的体现相互作用数据。该过程涉及要求参与者填写问卷并在十个主题上收集他们的个人资料,例如爱好和喜欢的音乐。随后,我们在机器人与参与者之间进行了对话,利用GPT-4根据参与者的概况和情感状态来产生适当的响应,这是由面部表达识别和情感分析确定的。自动评估,以评估收集数据的整体质量。两种评估的结果都表明对话中的自然性,参与度,流利性,一致性和相关性以及机器人提供促进反应的能力。值得注意的是,数据集源自与机器人的真正互动,涉及提供个人信息并传达实际情感的参与者。代码和数据集可在[匿名]上公开获取。
对声带的准确建模对于构建可解释的语音处理和语言学的关节表达是必要的。但是,声带建模是具有挑战性的,因为许多内部铰接器都被外部运动捕获技术遮住了。实时磁共振成像(RT-MRI)允许在语音过程中测量膜枢纽器的精确运动,但是由于耗时和计算昂贵的标记方法,带注释的MRI数据集限制了大小。我们首先使用仅视觉分段的方法为RT-MRI视频提供了深刻的标签策略。然后,我们使用音频引入多模式算法,以改善人声铰接器的分割。一起,我们为MRI视频细分中的声带建模设定了一个新的基准测试,并使用它来发布75个扬声器RT-MRI数据集的标签,从而将人声道标记的公共RT-MRI数据增加到9。代码和数据集标签可以在rishiraij.github.io/ mult-opodal-mri-avatar/。索引术语:发音演讲,视听感知
摘要自主系统越来越多地部署在各种领域,包括运输,机器人技术和工业自动化。但是,他们准确感知和理解其环境的能力仍然是一个重大挑战,尤其是在依靠视觉或声音等单一模态时。本评论论文全面研究了多模式感知系统,强调了视觉,听觉和触觉数据的整合,以增强环境理解和状态估计。本文追踪了多模式感知的演变,回顾了关键的方式和数据融合技术,并确定了这些系统所面临的当前挑战,例如环境不确定性,传感器限制和计算复杂性。此外,它提出了增强策略,包括采用高级传感器技术,改进的数据融合方法和自适应学习系统。本文通过探索未来的方向,强调新兴趋势并确定必须解决的研究差距
作为人类,我们用所有感官或模态(听觉、视觉、触觉、嗅觉和味觉)体验世界。我们使用这些模态,特别是视觉和触觉,来传达和解释特定的含义。多模态表达是对话的核心;一组丰富的模态会相互放大并经常相互补偿。多模态对话 AI 系统通过多种模态理解和表达自己来回答问题、完成任务并模拟人类对话。本文激励、定义并以数学形式表述了多模态对话研究目标。我们提供了解决目标所需的研究分类:多模态表示、融合、对齐、翻译和共同学习。我们调查了每个研究领域的最新数据集和方法,并强调了它们的限制性假设。最后,我们将多模态共同学习确定为多模态对话式人工智能研究的一个有希望的方向。