尽管用于语义图像编辑的深度神经模型最近取得了进展,但目前的方法仍然依赖于明确的人工输入。先前的工作假设有手动整理的数据集可用于监督学习,而对于无监督方法,需要人工检查发现的组件以识别那些修改有价值语义特征的组件。在这里,我们提出了一种新颖的替代方法:利用大脑反应作为学习语义特征表示的监督信号。在一项神经生理学实验中,向参与者 (N=30) 展示人工生成的面孔并指示他们寻找特定的语义特征,例如“老”或“微笑”,同时通过脑电图 (EEG) 记录他们的大脑反应。使用从这些反应推断出的监督信号,学习生成对抗网络 (GAN) 潜在空间内的语义特征,然后将其用于编辑新图像的语义特征。我们表明,隐性大脑监督实现的语义图像编辑性能与显性手动标记相当。这项工作证明了利用通过脑机接口记录的隐性人类反应进行语义图像编辑和解释的可行性。
摘要 - 平词检测通常依赖于词汇相似性度量,这些度量无法识别语义相似但词汇不同的释义。为了解决这个问题,我们提出了一种混合方法,将词汇指纹(通过滚动哈希和奖励)与来自基于变压器的模型得出的语义嵌入在一起。我们计算词汇和语义相似性得分,然后使用分类模型组合它们。在这项工作中,我们还比较了多个分类算法 - 逻辑回归,随机森林和XGBoost,以选择最终系统的表现最佳分类器。此外,我们分析了每种算法组件的复杂性,包括滚动哈希,奖励和语义嵌入生成。在Quora问题对的子集上进行的实验数据集表明,我们的混合方法超过了单方法基准。交互式的精简应用显示了实时参数调整,并突出了系统的鲁棒性。这项工作说明了将表面水平的词汇模式和深层语义关系团结起来,为窃的检测提供了一种更全面,更可靠的方法。索引术语 - 平式检测,词汇指纹识别,销售嵌入,变压器模型,混合方法,综合性分析。
摘要 - 我们提出了一种基于稳固的视觉范围,用于使用Sepantic Kepoints的囊室不足农业机器人。自主态下导航由于作物行之间的紧密间距(〜0。75 m),由于多径误差而导致的RTK-GPS精度降解,以及从过度混乱中的LiDAR测量中的噪声。早期的工作称为crogfollow,通过提出具有最终感知的基于学习的视觉导航系统来解决这些挑战。然而,这种方法具有以下局限性:由于缺乏置信度措施而导致的遮挡过程中缺乏可解释的表示以及对异常预测的敏感性。我们的系统Cropfollow ++,以学习的语义关键点表示,引入了模块化感知体系结构。这种学习的表示形式比Cropfollow更模块化,更可靠,并且提供了一种置信度措施来检测闭塞。cropfollow ++在涉及碰撞的数量(13 vs. 33)的现场测试中,跨越〜1的碰撞数量显着超过了cropfollow。在挑战性的后期田野中,各有9公里。我们还在各种野外条件下大规模覆盖了多个囊性播种机器人的cropfollow ++,并讨论了从中学到的关键经验教训。
摘要 - 生成准确且连续的占用占用图是自主机器人技术的关键组成部分。大多数现有的连续语义占用映射方法忽略了体素之间的潜在差异,从而重建了过度的映射。此外,由于固定和较大的查询范围,这些方法具有很高的计算复合物。为了应对过度升温和不具备的挑战,本文提出了一种新颖的锋利和有效的连续语义占用映射算法(See-CSOM)。这项工作的主要贡献是设计冗余体素滤波器模型(RVFM)和自适应内核长度模型(AKLM)以提高地图的性能。rvfm应用上下文熵,以降低信心的冗余体素,以便对象的代表将具有准确的边界,并具有锋利的边缘。AKLM使用类熵自适应地调节内核长度,从而减少用于训练的数据量。然后,配制了多方面内核推理函数以整合两个模型以生成连续的语义占用图。该算法已在室内和室外公共数据集上进行了验证,并在真实的机器人平台上实现,从而验证了准确性和效率的显着提高。
本文研究了Fincausal 2025共享任务中使用大型语言模型(LLMS)进行财务因果关系检测,这是对生成和多语言问题答案(QA)任务的努力。我们的研究采用了生成性和歧视方法,利用GPT-4O用于生成质量质量质量和基本基础式的,XLM-ROBERTA-LARGE和XLM-ROBERTA-BASE,用于跨英语和西班牙数据集的多语言质量检查。数据集由财务披露组成,问题反映了因果关系,并与直接从文本得出的提取答案配对。使用序列答案相似性(SAS)和精确匹配(EM)指标进行评估。虽然XLM-Roberta-large模型取得了最佳总体表现,但在English中排名第五(SAS:0.9598,EM:0.7615),西班牙语中排名第四(SAS:0.9756,EM:0.8084),在11个团队中,我们的结果也很高,在11个团队中,也可以强大的结果。值得注意的是,GPT-4O在几乎没有的设置中取得了令人鼓舞的结果,SAS得分接近了微调判别模型的分数,表明尽管缺乏特定于任务特定的微调,但生成性的AP可以提供竞争性能。此比较强调了一般LLM作为强大的多功能替代方案的潜力,用于复杂的质量质量质量质量因果关系检测。
尽管在野外有大量未标记的图像,但在原始图像数据上进行了可扩展的视觉预训练仍然是一个挑战。像素重建之类的通用配方努力为有效捕获详细的语义而努力,而在增强图像视图之间保持一致性的方法优化依赖于未经保育数据(如Web Crawls或视频框架)中不存在的归纳偏见。我们如何从广泛的未标记的IMEAL数据集中更有效地学习?我们研究注释引导程序,这种方法学会了将图像关联到示意注释,并使用未标记的数据来引导模型的理解,通过对图像附近农作物的语义进行预测。关键的优势在于它具有规格(哪些语义概念很有趣?)从预测中(这些概念发生在自然图像数据中?)。我们表明,注释引导使我们能够通过策划的未标记数据集或弱监督的数据集指导预训练,同时通过自举损失从所有未经切割的图像数据中学习。我们的实验证明了对野外未标记图像的预先培训的改进,包括视频数据,例如epickitchens,Coco等场景数据以及CC12M(例如CC12M)。
行为克隆通过从专家演示中学习来表现出许多在许多决策任务中的成功,但是它们可能是非常低效的样本效率,并且未能概括地看不见的情况 - ios。解决这些问题的一种方法是引入一般领域知识,以便该政策可以集中在基本特征上,并可以通过应用这些知识来概括地看不到国家。尽管这些知识很容易从专家那里获取,但由于神经网络中缺乏疾病结构以及功能工程的时间耗尽性质,很难与单个示例中的学习相结合。为了从通用知识和特定的演示轨迹中学习,我们使用大型语言模型的编码能力来实例化基于自然语言的专家领域知识的策略结构,并通过演示调整策略中的参数。我们将这种方法命名为知识知情模型(KIM),因为结构反映了专家知识的语义。在我们对Lunar Lander和赛车任务的实验中,我们的方法学会了以5个演示的方式解决任务,并且对噪声非常强大,从而超过了基线模型,并具有域名知识。这表明,借助大型语言模型,我们可以将域知识纳入策略的结构中,从而提高了行为克隆的样本效率。
单个对象跟踪旨在在视频序列中找到一个特定目标,鉴于其初始状态。古典轨道仅依靠视觉提示,限制了他们应对挑战的能力,例如外观变化,模棱两可和分心。因此,视觉语言(VL)跟踪已成为一种有前途的方法,并结合了语言描述,以直接提供高级语义并增强跟踪性能。但是,当前的VL跟踪器尚未完全利用VL学习的力量,因为它们受到了限制,例如在很大程度上依靠架子式骨干进行特征提取,无效的VL Fusion设计以及缺乏与VL相关的损失功能。因此,我们提出了一个新颖的跟踪器,该跟踪器逐渐探索了以目标为中心的VL跟踪语义。指定,我们提出了用于VL跟踪的第一个同步学习骨干(SLB),该骨干(SLB)由两个新颖的模式组成:目标增强模块(TEM)和语义意识到的模块(SAM)。这些模块使跟踪器能够感知与目标相关的语义,并以相同的步伐理解视觉和文本模式的文本,从而促进VL特征提取和在不同层次上的融合。此外,我们设计了密集的匹配损失,以进一步增强多模式表示学习。在VL跟踪数据集上进行的广泛实验证明了我们方法的优势和有效性。
扩散模型的出色实力促使其努力将其应用范围扩展到生成任务之外。然而,缺乏统一的AP批准来将扩散模型应用于具有不同语义颗粒性的视觉对任务的持续挑战。我们的目的是建立一个统一的视觉感知框架,利用生成模型和歧视模型之间的实质协同作用。在本文中,我们提出了一个简单而有效的框架,该框架构成了预先训练的稳定扩散(SD)模型,其中包含丰富的生成性先验,一个能够整合层次代表的头部(U-Head),并且能够整合层次代表,并提供了一个适应性的外观,并提供了不良的犯罪性犯罪性。全面研究揭示了苦艾酒的潜在特征,例如在不同的时间步骤和各种U-NET阶段隐藏在潜在变量中的感知的不同粒度。我们强调,将重量级或活体积的解码器纳入将扩散模型转换为较大的表示学习者没有任何信息。针对定制判别模型的广泛比较评估展示了我们方法对基于零的素描基于素描的图像检索(ZS-SBIR),少数射击分类和开放式播放量和开放式摄影(OV)SETANICE分割任务的效率。有希望的结果证明了扩散模型作为强大的学习者的潜力,并在提供信息丰富且健壮的视觉代码方面确立了重要的能力。
摘要。零射击学习(ZSL)是一种机器学习范式,使模型能够从培训期间未遇到的类中识别和分类数据。这种方法在识别标记数据受到限制的活动方面尤其重要,允许模型通过利用所见活动的语义知识来识别新的,看不见的活动。在本文中,我们探讨了ZSL使用句子 - 伯特(S-bert)用于语义式床位和变异自动编码器(VAE)的功效,以弥合可见阶级和看不见的类之间的差距。我们的方法利用腕部惯性的惯性事件来捕获活动数据,并采用S-Bert生成偶然的嵌入,以促进可见和看不见的活动之间知识的转移。评估是在包含三个看见和三个看不见的活动类别的数据集上进行的,平均持续时间为2秒,三个看见和三个看不见的活动类别,平均持续时间为7秒。结果表明,在识别看不见的活动时表现出了有希望的表现,平均持续时间为7秒的活动的准确性为0.84,而活动的平均持续时间为0.66,平均持续时间为2秒。这突出了ZSL对增强活动识别系统的潜力,这对于在医疗保健,人类计算机互动和智能环境等领域的应用至关重要,在这些领域中,识别广泛的活动至关重要。