Benchmarking

2025年1月16日机构名称:

通过人类偏好研究基准音乐生成模型和指标

摘要 - 截止性的进步使产生的音乐更接近人类创造的作品，但是评估这些模型仍然具有挑战性。虽然人类的偏好是评估质量，将这些主观判断转化为客观指标的黄金规模，尤其是对于文本审计和音乐质量，但事实证明很困难。在这项工作中，我们使用12种最先进的模型生成了6K歌曲，并对15K成对音频比较与2.5k人类参与者进行了调查，以评估人类偏好与广泛使用的指标之间的相关性。据我们所知，这项工作是第一个基于人类偏好对当前最新音乐生成模型和指标进行排名的工作。为了进一步的主观度量评估领域，我们提供了对生成的音乐和人类评估数据集的开放访问。索引术语 - 音乐生成，评估指标，音频数据集，人类评估调查

查看详细

File

2025年1月16日机构名称:

基准llms用于具体决策做出

我们旨在评估大型语言模型（LLMS）进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策，但我们仍然缺乏对其性能的系统性理解，因为它们通常用于不同的域，用于不同的目的，并基于不同的输入和输出。此外，现有的评估倾向于仅依赖最终的成功率，因此很难确定LLM中缺少什么能力以及问题所在的地方，进而有效地和选择性地利用LLMS的药物。为了解决这些限制，我们提出了一个广义接口（e Mboded a gent i nterface），该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言，我们的基准对LLMS在不同子任务中的性能进行了全面评估，从而指出了LLM驱动的体现体现的AI系统的优势和劣势，并提供了对LLM在体现决策中的有效和选择性使用的见解。

查看详细

File

2025年1月16日机构名称:

基准为人类活动识别的经典，深层和生成模型

人类活动识别（HAR）在使用配备传感器的设备和大型数据集的日益增长的情况下变得非常重要。本文使用HAR的五个关键基准数据集（UCI-HAR，UCI-HAR，PAMAP2，WISDM，WISDM和Berkeley Mhad）评估了三类模型的性能：经典的机器学习，深度学习体系结构和受限制的Boltzmann机器（RBMS）。我们使用诸如准确性，精度，回忆和F1评分等群集以进行全面比较，评估了各种模型，包括决策树，随机森林，卷积神经网络（CNN）和深信仰网络（DBN）。结果表明，CNN模型在所有数据集中都提供了卓越的表现，尤其是在伯克利MHAD上。像随机森林这样的经典模型在较小的数据集上做得很好，但是面对具有较大，更复杂数据的Challenges。基于RBM的模型还显示出显着的潜力，尤其是对于特征学习。本文提供了详细的比较，以帮助研究人员选择最合适的HAR任务模型。

查看详细

File

2025年1月15日机构名称:

PLMFIT：使用蛋白质工程蛋白质语言模型进行基准测试转移学习

（a）Spearman在以下比较的层相关性最佳PLM配置相对于每种TL技术（X轴）使用的层，下游的头部和汇总方法（X轴），请进行：（i）AAV采样，（ii）AAV-ONE vs. REST vs. REST，（iii）gb1-three，（iii）gb1-three vs.s vs.s Rest，（iiv）和（IV）vs. vs.-iv vs vs v。 SS3采样。使用了不同的PLM：Proteinbert，Progen2（小，中，Xlarge），ESM2（650m，3b，15b），具有TL策略，包括Fe，Lora，Lora-，Lora-，适配器和适配器。红色虚线表示使用序列OHE训练的基线模型，请参见方法。（b）相对于FT（绿色）和Fe（蓝色）的基线的性能差异百分比。微调始终会产生更大的性能改进，尤其是在更复杂的数据集（如Meltome）中。BoxPlots在任务和TL方法之间显示出绩效增长的可变性。

查看详细

File

2025年1月15日机构名称:

用于表征电路中段测量的广义周期基准测试算法

电路中间测量 (MCM) 是容错量子计算发展中的关键因素。虽然在实现 MCM 方面取得了快速的实验进展，但表征噪声 MCM 的系统方法仍在探索中。在这项工作中，我们开发了一种循环基准 (CB) 型算法来表征噪声 MCM。关键思想是对经典和量子寄存器进行联合傅里叶变换，然后估计傅里叶空间中的参数，类似于 CB 型算法中用于表征 Clifford 门的 Pauli 噪声通道的 Pauli 保真度。此外，我们开发了一种 MCM 噪声可学习性的理论，该理论确定了哪些信息可以学习噪声模型（在存在状态准备和终止测量噪声的情况下）以及哪些信息不能学习，这表明所有可学习的信息都可以使用我们的算法来学习。作为一种应用，我们展示了如何使用学习到的信息来测试 MCM 中测量噪声和状态准备噪声之间的独立性。最后，我们进行数值模拟来说明该算法的实际适用性。与其他 CB 型算法类似，我们希望该算法能够提供一个具有实验意义的有用工具包。

查看详细

File

2025年1月12日机构名称:

通过实施量子后加密术的限制设备性能基准测试

摘要：量子计算机的进步可能对现有的公钥加密方法构成显着威胁，这对于当前的网络安全基础架构至关重要。RSA和ECDA是当今两种最广泛使用的安全算法，原则上可能是由Shor算法在多项式时间内解决的（原则上），因为它有效地解决了离散的对数问题的能力，从而有潜在地使现有的基础结构使现有的基础结构构成不受量子攻击的不受限制。国家标准技术研究所（NIST）与量子后加密（PQC）标准化过程反应，以开发和优化一系列基于与Shor的algorithm不易于解决的相当数学问题的量词后算法（PQA）反应。虽然高功率计算机可以有效地运行这些PQA，但需要进一步的工作来调查和基准在较低功率（约束）设备上这些算法的性能，以及它们可以将它们集成到现有协议中（例如TLS）等方案（例如TLS）。本文为NIST最新选择的PQA提供了定量的基准和握手性能数据，并在Raspberry Pi 4设备上进行了测试，以模拟当今的物联网（物联网）设备，并与以前的基准测试数据进行定量比较，以对一系列约束系统进行基准测试。晶体 - 凯伯和晶体 - 二硫硫得时间分别是密钥封装和签名算法中最有效的PQA，猎鹰提供了最佳的TLS握手大小。

查看详细

File

2025年1月6日机构名称:

2025 年风险聚焦基准

表格中提供的排名（1 = 最高至 16 = 最低）应为首席审计执行官 (CAE)、审计委员会和高级管理层提供基准，以评估 2025 年的内部审计计划以及围绕内部审计职能未来资源需求的内部审计战略的驱动因素。

查看详细

File

2025年1月6日机构名称:

基因组的大型语言模型

大语言模型（LLM），例如GPT-3.5 1，GPT-4 2，Gemini 3和Claude 4，是在大型13个数据集中训练的高级模型，能够生成与人类言语非常相似的文本。llms在各种任务中表现出色，例如回答14个问题2，生成编程代码5和分析图像6。最近的研究还强调了它们在基因组研究中的强大能力15。例如，在单细胞RNA-seq数据中，GPT-4可以产生与人类专家提供的细胞类型注释相符的细胞类型注释，仅使用标记基因信息作为输入7。此外，可以利用由GPT-3.5生成的基因嵌入17来创建单细胞嵌入以用于各种下游分析8。18这些研究表明，LLM在基因组学领域具有知识，并且有可能作为基因组研究的知识19基础。这样的基于LLM的基因组知识基础可以通过20减少定位和检索可靠信息所需的时间来显着受益于基因组研究，这一过程通常是跨学科的21个具有有限基因组专业知识的跨学科21研究人员的时间。此外，现代LLMS的先进推理和分析能力22可以有效地综合来自不同来源的信息。但是，LLM是否可以可靠地充当基因组23知识库，尚未系统地研究并保持较低的理解。24基准数据集对于比较和评估LLMS执行特定任务的能力至关重要。这些发现表明39例如，25 mmlu（大量的多任务语言理解）9是一个广泛使用的基准数据集，用于评估LLMS的Interdis-26 cipledine Inswool，而HumaneVal 10评估其生成编程代码的能力。这些基准数据集27提供了一个标准化框架，用于比较不同LLM的性能和随着时间的推移跟踪模型演变。28他们在识别现有模型的弱点并指导未来发展的29 llms方面是关键的。但是，现有的基准数据集不涵盖基因组学，并且仍然缺乏基因组知识的基准。30为此，我们开发了基因研究，这是一个全面的问答（Q＆A）数据库，以基于基因组学中LLM的perfortor-31 Mance进行基准测试。基因研究包括基因组研究的各个方面，例如基因和SNP的基因组位置32，以及基因的功能。我们评估了六个LLM在基因上的性能，包括33 Ing Miogpt 11，BiomedLM 12，GPT-3.5 1，GPT-4O 13，Gemini Advanced 3和Claude 3.5 4。其中，GPT-4O，Gemini 34 Advanced和Claude 3.5是当代LLM，因其在各种任务中的出色表现而广受认可。35我们的分析表明，基于基因组知识的问题在整个LLM中的准确性显着差异。36此外，我们观察到，当LLM可以访问Web浏览功能时，可以进一步提高性能。37然而，即使表现最好的LLM在某些任务中完全失败了，尽管基因组知识被包括在其培训语料库中，但仍无法在38其他其他任务中正确回答所有问题。

查看详细

File

2024年12月17日机构名称:

Pharo 中的 AI 有多快？线性回归基准测试

摘要与许多其他现代编程语言一样，Pharo 将其应用扩展到计算要求高的领域，例如机器学习、大数据、加密货币等。这就需要快速的数值计算库。在这项工作中，我们建议通过外部函数接口 (FFI) 调用高度优化的外部库（例如 LAPACK 或 BLAS）中的例程来加速低级计算。作为概念验证，我们基于 LAPACK 的 DGELSD 例程构建了线性回归的原型实现。使用三个不同大小的基准数据集，我们将我们的算法的执行时间与纯 Pharo 实现和 scikit-learn（一种流行的机器学习 Python 库）进行比较。我们表明 LAPACK&Pharo 比纯 Pharo 快 2103 倍。我们还表明，scikit-learn 比我们的原型快 8-5 倍，具体取决于数据的大小。最后，我们证明纯 Pharo 比纯 Python 中的等效实现快 15 倍。这些发现可以为未来为 Pharo 构建快速数值库并进一步在更高级的库（如 pharo-ai）中使用它们奠定基础。

查看详细

File

2024年12月13日机构名称:

我们站立：基准测试乌尔都语ASR模型

本文介绍了乌尔都语自动语音识别（ASR）模型的全面评估。我们使用单词错误率（WER）分析了三个ASR模型家族的性能：耳语，MMS和无缝M4T，以及对最常见的错误单词和错误类型（包括插入，删除和下限）的详细检查。我们的分析是使用两种类型的数据集进行的，请阅读语音和文章。值得注意的是，我们提供了第一个用于基准乌尔都语ASR模型的对话性语音数据集。我们发现，无缝的大型在读取的语音数据集上的表现优于其他ASR模型，而在对话的语音数据集中，Whisper-Large的表现最佳。此外，这种评估强调了仅使用定量指标来评估乌尔都语（例如乌尔都语）的ASR模型的复杂性，并提出了对强大的乌尔都语文本正常ization系统的需求。我们的发现为乌尔都语等低资源语言开发强大的ASR系统提供了有价值的见解。

查看详细

XiaoMi-AI文件搜索系统

Benchmarking

通过人类偏好研究基准音乐生成模型和指标

基准llms用于具体决策做出

基准为人类活动识别的经典，深层和生成模型

PLMFIT：使用蛋白质工程蛋白质语言模型进行基准测试转移学习

用于表征电路中段测量的广义周期基准测试算法

通过实施量子后加密术的限制设备性能基准测试

2025 年风险聚焦基准

基因组的大型语言模型

Pharo 中的 AI 有多快？线性回归基准测试

我们站立：基准测试乌尔都语ASR模型

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI