微调

2024年9月1日机构名称:

Exhubert：通过块扩展加强休伯特，并在37个情绪数据集上进行微调

基础模型通过利用其预先训练的代表来捕获语音信号中的情感模式，在语音情感识别（SER）中表现出了巨大的希望。为了进一步提高各种语言和领域的SER性能，我们提出了一种新颖的方法。首先，我们收集了Emoset ++，这是一个全面的多语言，多种文化的语音情感语料库，具有37个数据集，150,907个类型，总持续时间为119.5小时。第二，我们介绍了exhubert，这是Hubert的增强版本，它是通过骨架扩展和对E Mo s et ++进行微调实现的。我们将每个编码器层及其权重填充，然后冻结第一个重复，集成了零零的线性层并跳过连接以保持功能并确保其适应性的能力，以便随后进行微调。我们在看不见的数据集上的评估显示了Exhubert的功效，为各种SER任务设定了新的基准标记。模型和有关E Mo S et ++的详细信息：https：//huggingface.co/amiriparian/exhubert。索引术语：情感计算，语音情感识别，变形金刚，深度学习

查看详细

File

2024年9月1日机构名称:

一种用于高效且有效的 Transformer 微调的量子退火实例选择方法

近年来，深度学习方法因其解决复杂任务的能力而变得无处不在。然而，这些模型需要庞大的数据集才能进行适当的训练和良好的泛化。这意味着需要很长的训练和微调时间，对于最复杂的模型和大型数据集，甚至需要几天的时间。在这项工作中，我们提出了一种新颖的量子实例选择 (IS) 方法，该方法可以显着减少训练数据集的大小（最多 28%），同时保持模型的有效性，从而提高（训练）速度和可扩展性。我们的解决方案具有创新性，因为它利用了一种不同的计算范式——量子退火 (QA)——一种可用于解决优化问题的特定量子计算范式。据我们所知，之前还没有尝试使用 QA 解决 IS 问题。此外，我们针对 IS 问题提出了一种新的二次无约束二元优化公式，这本身就是一项贡献。通过对多个文本分类基准进行大量实验，我们通过经验证明了我们的量子解决方案的可行性和与当前最先进的 IS 解决方案的竞争力。

查看详细

File

2024年8月22日机构名称:

cliz：使用自适应微调数据预测为气候数据集优化有损压缩

摘要 - 从尖端的超级计算机中获得支持极大的科学模拟，气候研究在过去几十年中取得了显着发展。，在有效地存储和传输大规模的气候数据之间，出现了新的关键挑战。在本文中，我们开发了CLIZ，这是一种有效的在线错误控制有损压缩方法，具有优化的数据预测和对气候数据集跨各种气候模型的编码方法。一方面，我们探索了如何利用气候数据集的特定属性（例如蒙版信息，维度置换/融合和数据周期性模式）以提高数据预测准确性。另一方面，Cliz采用了一种新型的多霍夫曼编码方法，可以显着提高编码效率。因此显着提高了压缩比。我们根据具有不同模型的多个实地世界气候数据集评估了CLIZ与许多其他最先进的错误控制损耗压缩机（包括SZ3，ZFP，SPERR和QOZ）。实验表明，Cliz在气候数据集上的表现优于第二好的压缩机（SZ3，SPERR或QOZ1.1）的压缩比的压缩率高20％-200％。cliz可以将两个远程Globus终点之间的数据传输成本显着降低32％-38％。索引术语 - 错误控制的损耗压缩，气候数据集，分布式数据存储库/数据库

查看详细

File

2024年8月16日机构名称:

微调的“小” llm（仍然）明显优于零射击...

生成AI提供了一种简单的，基于及时的替代方案，用于微调较小的BERT风格的LLM，以进行文本分类任务。这有望消除对手动标记的培训数据和特定于任务模型培训的需求。但是，仍然是一个悬而未决的问题。在本文中，我们表明，较小的，微调的LLM（仍然）始终如一，明显优于较大的零射击，这促使文本分类中的模型。我们将三种主要的生成AI模型（与GPT-3.5/GPT-4和Claude Opus）与多种分类任务（情感，批准/不赞成，情绪，情感，党派职位）和文本类别（新闻，推文，演讲，演讲）中进行了比较。我们发现，在所有情况下，使用特定于应用程序的培训数据进行微调均可取得卓越的性能。为了使更广泛的受众更容易访问这种方法，我们将提供一个易于使用的工具包。我们的工具包，伴随着非技术分步指导，使用户能够以最小的技术和计算工作来选择和调整类似BERT的LLM，以完成任何分类任务。

查看详细

File

2024年7月30日机构名称:

有效地对扩散模型的私人微调

摘要分散模型（DMS）的最新发展使得能够产生惊人的高质量合成样品。最近的工作表明，差异模型产生的合成样本已在公共数据上进行了预培训，并在私人数据上完全构成了差异性隐私，可以培训下游的分类器，同时实现良好的隐私公用事业 - 公用事业贸易。然而，就记忆使用和计算而言，具有DP-SGD的如此大的分解模型完全需要资源。在这项工作中，我们使用具有不同隐私性的低维适应性（LODA）进行了划分模型的参数 - 有效的微调（PEFT）。我们使用MNIST和CIFAR-10数据集评估了所提出的方法，并证明这种有效的功能还可以为训练下游分类器培训有用的合成样品，并保证了隐私保护数据。我们的源代码将在GitHub上提供。

查看详细

File

2024年7月27日机构名称:

蛋白质稳定性通过微调蛋白质语言模型在大型数据集上进行微调

蛋白质稳定性在多种应用中起着至关重要的作用，例如食物加工，治疗剂和致病突变的鉴定。工程运动企业寻求提高蛋白质稳定性，并且对简化这些过程有浓厚的兴趣，以便能够快速优化高度稳定的蛋白质，并且迭代较少。在这项工作中，我们利用巨型尺度数据集探索了为稳定性预测优化的蛋白质语言模型。ESM Therm受过训练，该培训是根据461个蛋白质结构域衍生的528K天然和从头序列的折叠稳定性训练，可以容纳缺失，插入和多点突变。我们表明，蛋白质语言模型可以进行微调以预测折叠稳定性。ESM Therm在小蛋白质结构域上合理地执行，并将其推广到训练集远端的序列。最后，我们讨论了模型的局限性，与其他最先进的方法相比，将其推广到较大的蛋白脚手架。我们的结果强调了对各种数据集上进行大规模稳定性测量的需求，该数据集反映了自然界中通常观察到的序列长度的分布。

查看详细

File

2024年7月17日机构名称:

量子PEFT：超参数高效微调

摘要本文介绍了利用量子计算进行参数高效微调 (PEFT) 的 Quantum-PEFT。与其他加性 PEFT 方法（例如低秩自适应 (LoRA)）不同，Quantum-PEFT 利用底层的全秩但令人惊讶的参数高效的量子幺正参数化和交替纠缠。使用 Pauli 参数化时，可训练参数的数量仅随环境维度呈对数增长，而不是像基于 LoRA 的 PEFT 方法那样呈线性增长。因此，随着维度的增长，Quantum-PEFT 实现的可训练参数数量比最低秩的 LoRA 少得多，从而提高了参数效率，同时保持了有竞争力的性能。我们将 Quantum-PEFT 应用于语言和视觉中的几个迁移学习基准，显示出参数效率的显著优势。

查看详细

File

2024年7月12日机构名称:

网格注意力：提高大型视力模型的计算效率，而无需微调

Gridattn集成了提出的网格聚类模块，网格分配策略以及将网格恢复模块与常见的MHA相结合，以提高大型视力模型的计算效率并保持其性能，而无需重新训练或对其参数进行微调。我们对最近的高分辨率任务进行了广泛的实验，包括零摄像实例分割（SAM，Expedit-SAM），文本到图像生成（稳定扩散v2.1）和语义segmentation（segformer b0-b5）。实验表明：通过任何训练或微调，Gridattn将GFLOPS降低[4.6％，16.1％]和GPU推断潜伏期的范围[8.2％，21.4％]，同时达到等效性能（绩效偏见比率低于1％）。此外，提出的实验表明，Gridattn也可以从头开始训练，也可以通过微调的微调成本进行微调，从而大大提高了性能效率 - 折衷方案。作为建议，我们鼓励社区直接部署训练有素的变压器，对预先训练的训练训练，或从头开始训练新的变压器时，将社区合并。源代码将在https://github.com/pengyulpy/gridattn中发布。

查看详细

File

2024年7月9日机构名称:

用于蛋白质理解的大语言模型的微调数据集和基准测试

蛋白质序列与自然语言之间的高相似性，特别是在其顺序数据结构中，在两个领域的深度学习模型中都取得了平行的进步。在自然语言处理（NLP）中，大型语言模型（LLMS）在文本，翻译和对话代理等任务中取得了巨大的成功，因为它们对各种数据集进行了广泛的培训，使他们能够捕获复杂的语言模式并具有类似人类的文本。受这些进步的启发，研究人员试图通过将蛋白质序列编码器与诸如LLAVA之类的设计之类的设计来适应蛋白质理解。但是，这种适应提出了一个基本问题：“最初是为NLP设计的LLM可以有效地将蛋白质序列理解为一种语言形式吗？”由于蛋白质序列和相应的文本描述之间缺乏直接相关性，目前的数据集在解决这个问题方面缺乏，从而限制了训练和评估LLM的能力，无法有效地了解蛋白质的理解。为了弥合这一差距，我们引入了proteinlmdataset，该数据集是专门设计的，专门针对LLMS的进一步自我监管的预处理和监督微调（SFT），以增强其对蛋白质序列理解的能力。具体来说，蛋白质质量包括174.6亿个代币，用于训练预处理和SFT的893K指令。此外，我们提出了蛋白质一个基准数据集，该数据集由944个手动验证的多项选择问题组成，用于评估LLMS的蛋白质理解。Proteinlmbench以多种语言结合了与蛋白质相关的细节和序列，建立了评估LLMS蛋白质理解能力的新标准。大语模型interlm2-7b在蛋白质质量上预处理并进行了微调，在蛋白质Lmbench上的表现优于gpt-4，获得了最高的精度得分。数据集和基准可在https://huggingface.co/datasets/tsynbio/proteinlmdataset/和https://huggingface.co/datasets/tsynbio/tsynbio/proteinlmbench中获得。代码可在https://github.com/tsynbio/proteinlmdataset/上获得。

查看详细

File

2024年6月20日机构名称:

遗传算法对 Transformer 编码器的微调效果如何？第一种方法

遗传算法 (GA) 已在工程或医学等不同领域得到研究，以优化网络路由或医学图像分割等各种问题。此外，它们还被用于自动寻找深度神经网络的最佳架构。但是，据我们所知，它们尚未被用作 Transformer 模型的权重优化器。虽然梯度下降一直是这项任务的主要范例，但我们相信 GA 有其优势。在本文中，我们将证明尽管 GA 能够微调 Transformer 编码器，但它们的泛化能力比 Adam 差得多；然而，仔细观察，GA 从两个不同的预训练数据集中利用知识的能力超过了 Adam。

查看详细

XiaoMi-AI文件搜索系统

微调

Exhubert：通过块扩展加强休伯特，并在37个情绪数据集上进行微调

一种用于高效且有效的 Transformer 微调的量子退火实例选择方法

cliz：使用自适应微调数据预测为气候数据集优化有损压缩

微调的“小” llm（仍然）明显优于零射击...

有效地对扩散模型的私人微调

蛋白质稳定性通过微调蛋白质语言模型在大型数据集上进行微调

量子PEFT：超参数高效微调

网格注意力：提高大型视力模型的计算效率，而无需微调

用于蛋白质理解的大语言模型的微调数据集和基准测试

遗传算法对 Transformer 编码器的微调效果如何？第一种方法

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI