CURIE：评估多任务科学长期法学硕士 (LLM) ...__

CURIE：评估多任务科学长期法学硕士 (LLM) ...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

CURIE：评估多任务科学长期法学硕士 (LLM) ...

¥ 1.0

热度

科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE，这是一个科学的长上下文理解、推理和信息提取基准，用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务：材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM，这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力，但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说，所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。

添加pdf代下载 VIP点击下载文件