尽管在大型语言模型(LLMS)的文本嵌入的压缩表示中已取得了重大进步,但多模式LLMS(MLLMS)中视觉令牌的压缩仍然很大程度上被忽略了。在这项工作中,我们介绍了有关在这些模型中有关视觉令牌和有效培训的冗余分析的研究。我们的初始实验表明,在测试阶段消除多达70%的视觉令牌,仅通过平均池,仅导致在视觉问题上降低3%的降低3%,从而回答GQA基准上的准确性,这表明在视觉上下文中有显着的冗余。解决此问题,我们介绍了视觉上下文压缩机,这减少了视觉令牌的数量,以提高训练和推理效率而不牺牲性能。为了最大程度地减少视觉令牌压缩而导致的信息损失,同时保持训练效率,我们将Llavolta作为轻巧和分期的训练方案开发,该方案结合了阶段的视觉上下文压缩,以逐步压缩视觉令牌从严重压缩到在训练过程中的轻度压缩,在测试时不会损失信息损失。广泛的实验表明,我们的方法在图像语言和视频语言理解中都提高了MLLM的性能,同时也大大降低了培训成本并提高了推理效率。
军事领域对遥感信息的需求可以追溯到古代;起初,人们从山上控制敌人及其活动,然后从飞艇和飞机上控制敌人及其活动。随着火箭和卫星的出现,从太空观察地面上的军事和政治活动成为可能。因此,自太空探索开始以来,已发射了数百颗卫星,从而可以整合军事情报部门的监视活动。由于其各种潜力,卫星现在可以协助其他领域以及军事领域 - 包括通信,气象学,海洋学,定位和预警。直到现在,许多卫星都是为政府目的而开发的,支持科学研究和环境监测。每天地球都被许多遥感卫星系统星座所描绘。这些卫星由各种国际机构建造和发射,拥有各自特定的成像传感器,利用可见光、红外、微波和电磁频谱的其他部分。频率范围的选择取决于我们想要研究的内容;例如,红外范围对于研究海面图像非常有用,而城市区域图像的分析则需要使用多光谱数据。在本论文工作中,重点是主动传感器;特别是本论文基于对 SAR(合成孔径雷达)系统的分析。成像卫星利用雷达原理,利用反向散射信号的时间延迟形成图像:这些传感器发出微波能量的短脉冲,然后记录返回,通过复杂的信号处理步骤获得可读的表面图像。SAR 图像位于
此外,储能对于风能等可再生能源的使用和实施至关重要。等温 CAES 具有绿色、高效、弹性和可扩展的储能潜力,与当前的储能方法相比具有多项优势,例如无需使用需要有限稀土元素的电池。虽然 I-CAES 的最新技术水平在 10 年内几乎没有变化,但这项发明将推动该技术的发展,并在爆炸式增长的市场中占据优势。
1 德国盖斯特哈赫特亥姆霍兹-赫里翁中心氢能技术研究所 2 日本福冈九州大学机械工程系 3 西班牙马德里自治大学材料物理系 4 美国华盛顿州里奇兰 99352 太平洋西北国家实验室 5 意大利都灵大学 NIS 和 INSTM 化学系 6 希腊雅典圣帕拉斯凯维 NCSR“Demokritos” 7 希腊哈尼亚克里特技术大学环境工程学院可再生和可持续能源系统实验室 8 日本筑波国家先进工业科学技术研究所 (AIST) 9 美国科罗拉多州戈尔登国家可再生能源实验室 10 英国诺丁汉大学机械、材料与制造工程系 11 劳伦斯利弗莫尔国家实验室材料科学部利弗莫尔,加利福尼亚州,94550,美国 12 马克斯普朗克智能系统研究所,斯图加特,德国 13 HySA 系统能力中心,南非先进材料化学研究所(SAIAMC),西开普大学,南非贝尔维尔 14 技术系统系,奥斯陆大学,凯勒,挪威 15 地热能源研究所,希腊研究与技术基金会(IG/FORTH),希腊克里特岛哈尼亚 16 昆士兰微纳米技术中心,格里菲斯大学,内森,澳大利亚 17 能源技术研究所,凯勒,挪威 18 新能源与环境解决方案与技术(NEEST),希腊雅典圣帕拉斯凯维 * 任何通讯均应寄给作者。
摘要。端到端图像压缩的最新进展可能会超过传统的编解码器,以超越率延伸性能。但是,当前的方法要么优先考虑人类概念质量,要么仅针对一个或几个预定的下游任务优化,从而忽略了涉及各种不可预见的机器视觉任务的更常见的情况。在本文中,我们提出了一个基于扩散的多任务统一图像压缩框架,旨在通过在开放设定的场景中纳入Hu-Man感知和多个视觉任务来扩展传统图像压缩的边界。我们提出的方法包括多任务协作嵌入模块和基于扩散的不变知识学习模块。以前的模块有助于完成多个任务的协作嵌入,而后一个模块通过将不变知识从可见的视觉任务中提炼出来,从而提高了对不可预见的任务的概括。实验表明,所提出的方法提取了用于Human和Machine Vision协作压缩的紧凑和多功能嵌入,从而带来了出色的性能。Specifically, our method outperforms the state-of-the-art by 52.25%/51.68%/48.87%/48.07%/6.29% BD-rate reduction in terms of mAP/mAP/aAcc/PQ-all/accuracy on the MS-COCO for object de- tection/instance segmentation/semantic segmentation/panoptic segmen- tation and video question answering tasks, 分别。
通过利用量化误差和加性噪声之间的相似性,可以通过使用扩散模型“ denoise”量化引入的伪影来构建基于扩散的图像压缩编解码器。但是,我们确定了这种方法中的三个差距,从而导致量化的数据排除在扩散模型的分布之外:噪声水平,噪声类型和由离散化引起的差距的差距。为了解决这些问题,我们提出了一个新型的基于量化的正向扩散过程,该过程是理论上建立的,并桥接了上述三个差距。这是通过经过精心量身定制的量化时间表以及对均匀噪声训练的扩散模型来实现的。与以前的工作相比,我们提出的架构也会产生一贯的现实和详细的结果,即使是在极低的比特率下,同时保持对原始图像的忠诚度。
摘要:稳态视觉诱发电位(SSVEP)作为一种信息丰富的脑电信号,在无线可穿戴设备中脱颖而出。然而,其数据通常非常庞大,占用过多的带宽源,并且在以原始数据形式传输时需要巨大的功耗,因此需要对其进行压缩。本文提出了一种针对SSVEP应用的个性化脑电信号压缩与重构算法。在该算法中,为了实现个性化,首先使用面向BCI应用的开放基准数据库(BETA)对初级人工神经网络(ANN)模型进行预训练。然后,通过增量学习为每个受试者生成自适应ANN模型来压缩他们的个人数据。此外,提出了一种个性化的非均匀量化方法来减少压缩引起的误差。在BETA上进行测试,当压缩率为12.7倍时,识别准确率仅下降3.79%。与不使用ANN、不使用均匀量化的情况相比,所提算法在准确度测试中可使信号损失从50.43%减少到81.08%。
本文介绍了符合空间数据系统咨询委员会 (CCSDS) 121.0-B-2 和 CCSDS 123.0-B-1 无损卫星图像压缩标准的两个知识产权 (IP) 核的建模、设计和实现。CCSDS 121.0-B-2 描述了一种基于 Rice 自适应编码的无损通用压缩器。CCSDS 123.0-B-1 标准描述了一种专为高效机载高光谱和多光谱图像压缩而设计的无损算法,它基于预测和基于熵的编码结构。后者提供了两种选项:样本自适应和块自适应编码器,对应于 CCSDS 121.0-B-2 算法。这些 IP 核被设计为独立的压缩器,但由于专用接口,它们可以轻松地以即插即用的方式组合在一起使用。此外,还提供了用于配置和外部存储器访问的标准接口。设计过程包括考虑几种不同的硬件架构,以便同时最大化吞吐量并优化机载资源的要求。这两个 IP 都符合标准中考虑的高可配置性。获得的 VHDL 代码完全独立于技术,因此可用于针对太空环境中感兴趣的任何现场可编程门阵列 (FPGA) 或 ASIC,旨在在卫星中高效执行压缩,尽管固有的
军事领域对遥感信息的需求可以追溯到古代;起初,人们从山上控制敌人及其活动,后来则从飞艇和飞机上控制。随着火箭和卫星的出现,从太空观察地面上的军事和政治活动成为可能。因此,自太空探索开始以来,已发射了数百颗卫星,使军事情报部门的监视活动得以整合。由于卫星具有多种潜力,它们现在可以协助军事领域以及其他领域 - 包括通信、气象学、海洋学、定位和预警。直到今天,许多卫星都是为政府目的而开发的,用于支持科学研究和环境监测。每天,地球都被许多遥感卫星系统星座所描绘。这些卫星由各种国际机构建造和发射,它们有自己特定的成像传感器,利用可见光、红外、微波和电磁波谱的其他部分。频率范围的选择取决于我们想要研究的内容;例如,红外范围对于研究海面图像非常有用,而城市区域图像的分析则需要使用多光谱数据。本论文的重点是主动传感器;特别是本论文基于对 SAR(合成孔径雷达)系统的分析。图像卫星利用雷达原理,利用反向散射信号的时间延迟来形成图像:这些传感器发出微波能量的短脉冲,然后记录回波,通过复杂的信号处理步骤获得可读的表面图像。SAR 图像
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。