摘要 - 在本文中,我们调查了大语言模型(LLMS)在恢复损坏的Bitstreams的应用,特别关注JPEG图像数据。我们提出了一个基于字节的GPT-2模型,该模型可以直接处理字节序列并预测后续字节,从而使其应用于JPEG BITSTREAM恢复。此体系结构允许该模型捕获JPEG图像的Bitstream中连续字节数据之间的关系,从而使模型可以由于损坏的存储和恶意攻击而恢复位翼误差。我们在位错误率不同(BER)上评估了模型在位纤维JPEG数据集上的性能。实验结果证明了该模型在Bitstream中隐式学习模式并纠正错误字节的能力,从而展示了LLM在二进制处理任务中的潜力。我们的发现突出了基于字节的LLM在解决数据腐败问题并为该领域研究的新途径的承诺。
Refka Ghodhbani 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 | 突尼斯莫纳斯提尔大学科学学院电子与微电子实验室 refka.ghodhbani@nbu.edu.sa(通讯作者) Taoufik Saidani 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 taoufik.saidan@nbu.edu.sa Layla Horrigue 突尼斯莫纳斯提尔大学科学学院电子与微电子实验室 layla.k-12@hotmail.com Asaad M. Algarni 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 asaad.algarni@nbu.edu.sa Muteb Alshammari 沙特阿拉伯北部边境大学计算机与信息技术学院信息技术系 muteb.alshammari@nbu.edu.sa
基于学习的图像编码解决方案已经证明,它们可以实现比现有传统解决方案更好的压缩效率,即通过利用先进的机器学习工具,例如深度神经网络 [1]。具体而言,与 JPEG、JPEG 2000 和 HEVC Intra 相比,事实证明,对于某些目标比特率,基于学习的编码解决方案可以提供更好的感知质量,无论是在适当的感知客观质量指标还是主观评估分数方面 [2]。除了高压缩效率之外,基于学习的图像编码解决方案还可以毫不费力地适应图像处理和计算机视觉任务,而无需完全解码,即无需执行图像重建。这与经典图像编解码器形成对比,后者在图像处理和计算机视觉管道中使用时,需要对压缩比特流执行完全解码以获得基于像素的表示。
将使用双刺激连续质量量表 (DSCQS) 方法,受试者并排观看原始图像和受损解码图像,并在连续量表中对两者进行评分。该量表分为五个相等的长度,与正常的 ITU-R 五点质量量表相对应,即优秀、良好、一般、较差和差。该方法需要评估每个测试图像的原始版本和受损版本。观察者不知道哪一个是参考图像,并且参考图像的位置以伪随机顺序更改。受试者通过在垂直刻度上插入标记来评估原始图像和解码图像的整体质量。垂直刻度成对打印,以适应每个测试图片的双重呈现。