摘要: - 夜间驾驶带来了可见性和照明降低带来的相当困难,从而提高了不幸的可能性。热成像技术通过捕获由物体发出的热辐射(独立于环境照明条件)来提供有希望的解决方案。在本文中,我们建议一种独特的方法,用于在涉及使用深度学习技术的情况下获得的热图像的语义分割。我们的方法的标题为“用于夜间场景的多模式语义分割算法”,利用卷积神经网络(CNNS)将热图像中的像素准确分类为有意义的类别,例如道路,车辆,车辆,行人和障碍物。我们采用编码器架构,转移学习和量身定制的数据增强策略,以提高通用性以及分割能力的准确性。使用公开访问数据集进行的测试,包括KAIST数据集,证明了我们方法在准确分割热图像中的有效性。性能指标,例如像素级准确度(99%),平均相交(MIOU)(95%)(95%),总体精确度(95.75%),总召回率(96.25%)(96.25%),整体F1分数(95.75%),准确性(98%)以及准确性(97%)的详细信息中包括了详细的份量。这些值提供了拟议方法的有效性的定量度量,从精度和计算效率方面展示了其优于现有技术的优势。我们的研究有助于提高夜间驾驶安全性并提高自动驾驶汽车技术。
摘要 - 毫米波和Terahertz网络中预测信号阻塞对于实现主动移交(PHO)和确保无缝连接至关重要。使用深度学习,多模式视觉和无线传感数据的现有方法主要取决于集中式的模型培训。尽管这些技术是有效的,但它们具有高度的成本,不足的带宽使用和延迟问题,这限制了其实时适用性。本文提出了一个语义意识的联合阻塞预测(SFBP)框架,利用轻巧的计算机视觉技术MobilenEtv3用于基于边缘的语义提取,降低了连接和计算成本。此外,我们引入了相似性驱动的联邦平均(SD-FEDAVG)机制,以增强模型聚合过程的鲁棒性,从而有效地减轻了噪声更新和对抗性攻击的影响。我们提出的SFBP框架达到了97.1%的阻塞预测准确性,与集中学习相比,与集中式学习相比,与集中的学习成本密切相匹配,而与没有语义提取的FL相比,沟通成本降低了88.75%,而沟通成本则达到57.87%。此外,与没有语义提取的FL相比,与集中学习相比,在设备上的推论相比将潜伏期降低23%,而FL相比有18%,从而改善了PHO的实时决策。此外,SD-FEDAVG机制在嘈杂条件下提高了预测准确性,从而直接通过将切换失败率降低7%来影响PHO。索引术语 - 毫计浪潮,联合学习,语义交流,阻塞预测,计算机视觉
不过,这就是事情。在加速研究方面,运行AI算法是相对容易的部分。收集,清洁和管理该算法的数据馈送,这是重型升降机。失败
摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。
摘要 - 地球观察卫星可以在不同的时间,气候条件和平台形式下捕获光学图像,在颜色和亮度上表现出很大的差异,在合成大面积光学卫星图像时会导致视觉体验差。相关的颜色平衡问题引起了研究人员的极大关注,但诸如缺乏研究数据和对模型参数的敏感性之类的挑战持续存在。为了解决这些问题,本文发布了一个公开开放的数据集,并提出了语义细分增强色彩平衡网络(SECBNET)。首先,为了减轻研究数据的稀缺性,我们开发了一个公共可用的遥感图像颜色平衡数据集,Zhu hai色彩平衡图像(ZHCBI),以支持相关的研究活动。第二,为了提高颜色平衡图像和目标图像之间的语义一致性,我们设计了以分割结果为指导的双分支U-NET架构,并提出了一种新颖的分割特征损失函数。最后,为了解决分段处理中块之间的接缝问题和不自然的过渡,我们引入了一个基于加权平均的后处理模块。我们对ZHCBI数据集上的现有主流颜色平衡算法进行了比较实验和分析。结果表明,与其他主流方法相比,我们所提出的方法可实现最先进的颜色平衡质量,并具有显着改善的视觉效果和更高的峰信噪比(PSNR)(23.64 dB)。
摘要 - 平词检测通常依赖于词汇相似性度量,这些度量无法识别语义相似但词汇不同的释义。为了解决这个问题,我们提出了一种混合方法,将词汇指纹(通过滚动哈希和奖励)与来自基于变压器的模型得出的语义嵌入在一起。我们计算词汇和语义相似性得分,然后使用分类模型组合它们。在这项工作中,我们还比较了多个分类算法 - 逻辑回归,随机森林和XGBoost,以选择最终系统的表现最佳分类器。此外,我们分析了每种算法组件的复杂性,包括滚动哈希,奖励和语义嵌入生成。在Quora问题对的子集上进行的实验数据集表明,我们的混合方法超过了单方法基准。交互式的精简应用显示了实时参数调整,并突出了系统的鲁棒性。这项工作说明了将表面水平的词汇模式和深层语义关系团结起来,为窃的检测提供了一种更全面,更可靠的方法。索引术语 - 平式检测,词汇指纹识别,销售嵌入,变压器模型,混合方法,综合性分析。
生成基因组学模型可以设计越来越复杂的生物系统。然而,有效地控制这些模型以生成具有所需功能的新序列仍然是一项重大挑战。在这里,我们展示了 Evo,一个拥有 70 亿个参数的基因组语言模型,可以执行功能引导设计,超越自然序列。通过学习多个基因之间的语义关系,Evo 实现了基因组的“自动完成”,其中编码所需功能的 DNA 提示指示模型生成可挖掘类似功能的新 DNA 序列。我们将此过程称为“语义挖掘”,与传统的基因组挖掘不同,它可以访问不受发现的进化创新约束的序列景观。我们通过实验测试生成的抗 CRISPR 蛋白和毒素-抗毒素系统的活性来验证这种方法,包括与任何天然蛋白质没有显着同源性的从头基因。令人惊讶的是,即使在没有结构假设、已知的进化保守性或特定任务微调的情况下,使用 Evo 进行上下文蛋白质设计也能实现强大的活性和较高的实验成功率。然后,我们使用 Evo 自动完成数百万个提示,以生成 SynGenome,这是一个独一无二的数据库,其中包含超过 1200 亿个 AI 生成的基因组序列碱基对,可实现多种可能功能的语义挖掘。语义挖掘范例可实现超越观察到的进化宇宙的功能探索。
摘要本文概述了我们对准确性轨道和语义表解释(STI)和大语言模型(LLMS)的贡献,该语义网络挑战在表格数据上挑战对知识图匹配(SEMTAB)。我们的方法涉及使用LLM来解决挑战中提出的各种任务。具体来说,我们对大多数任务采用了零射门和少量提示技术,这促进了LLMS以最少的先前培训来解释和注释表格数据的能力。对于列属性注释(CPA)任务,我们通过应用一组预定义的规则来采用不同的方法,该规则是针对每个数据集的结构量身定制的。我们的方法取得了显着的结果,𝑓1 -𝑠𝑐𝑜𝑟𝑒超过0。92,证明了LLM在应对SEMTAB挑战方面的有效性。这些结果表明,LLM具有重要的功能,作为语义表注释和知识图匹配的强大解决方案,突出了它们推进语义Web技术领域的潜力。
对环绕声的语义的空间理解是自动驾驶汽车需要安全驾驶决策所需的关键能力。最近,纯粹基于视觉的解决方案已增强了研究的兴趣。在特定的方法中,从多个摄像机中提取鸟类视图(BEV)的方法表现出了很好的空间理解性能。本文介绍了学习的位置编码的依赖性,以将基于变压器的甲基化的图像和BEV特征映射元素关联。我们提出利用外两极的几何约束,以模拟相机注意场与BEV之间的关系。它们被纳入注意机制中,作为一种新的归因术语,是学习位置编码的替代方案。实验表明,与隐式学习摄像机配置相比,我们的方法的大鹰队以2%MIOU的方式优于2%MIOU的BEV方法,并且具有出色的概括能力。
在最近的研究中,研究人员使用了大型语言模型(LLM)来探索大脑中的语义表示。但是,他们通常分别评估了不同级别的语义内容,例如语音,对象和故事。在这项研究中,我们使用功能磁共振成像(fMRI)记录了大脑活动,而参与者则观看了8.3个小时的戏剧和电影。我们在多个语义级别注释了这些刺激,这使我们能够为此内容提取LLM的潜在表示。我们的发现是LLMS比传统语言模型更准确地预测人脑活动的结果,尤其是对于复杂的背景故事。此外,我们确定了与不同语义表示相关的不同大脑区域,包括多模式视觉 - 语义表示,这突出了同时建模多级和多态语义表示的重要性。我们将使我们的fMRI数据集公开使用,以促进对LLM与人脑功能保持一致的进一步研究。请在https://sites.google上查看我们的网页。com/view/llm and-brain/。