详细内容或原文请订阅后点击阅览
Anthropic Claude 3.5 Sonnet 在 Kensho 的 S&P AI 基准测试中,在商业和金融领域排名第一
Anthropic Claude 3.5 Sonnet 目前在 Kensho 的 S&P AI 基准中名列前茅,该基准评估了金融和商业的大型语言模型 (LLM)。Kensho 是 S&P Global 的 AI 创新中心。借助 Amazon Bedrock,Kensho 能够快速运行 Anthropic Claude 3.5 Sonnet 以应对一系列具有挑战性的业务和财务挑战 […]
来源:亚马逊云科技 _机器学习Anthropic 的 Claude 3.5 Sonnet 目前在 Kensho 的 S&P AI 基准测试中名列前茅,该基准测试评估金融和商业的大型语言模型 (LLM)。Kensho 是 S&P Global 的 AI 创新中心。使用 Amazon Bedrock,Kensho 能够快速运行 Anthropic 的 Claude 3.5 Sonnet 完成一系列具有挑战性的商业和金融任务。我们将在这篇文章中讨论这些任务以及 Anthropic 的 Claude 3.5 Sonnet 的功能。
Kensho 的 S&P AI 基准 Amazon BedrockLLM 评估的局限性
使用标准化测试(例如大规模多任务语言理解 (MMLU),该测试由涵盖数学、哲学和医学等 57 个学科的多项选择题组成)和 HumanEval(测试代码生成)来评估 LLM 是一种常见做法。虽然这些评估有助于让 LLM 用户了解 LLM 的相对性能,但它们也有局限性。例如,基准数据集的问题和答案可能会泄漏到训练数据中。此外,当今的 LLM 非常适合一般任务,例如问答任务和代码生成。但是,这些功能并不总是可以转化为特定领域的任务。在金融服务行业,我们听到客户询问应该为他们的金融领域生成人工智能 (AI) 应用程序选择哪种模型。这些应用要求法学硕士具备必要的领域知识,并能够推理数字数据以计算指标并提取见解。我们还从客户那里听说,排名靠前的通用基准法学硕士不一定能为他们提供最佳的金融和商业应用性能。
我们的客户经常问我们是否有专门针对金融行业的法学硕士基准,可以帮助他们更快地选择合适的法学硕士。
Kensho 的 S&P AI 基准
– Bhavesh Dayalji,S&P Global 首席 AI 官兼 Kensho 首席执行官。
论文