基准关键词检索结果

我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准测试!

Are We Ready for Multi-Image Reasoning? Launching VHs: The Visual Haystacks Benchmark!

人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单个图像中的场景并回答相关问题。虽然基础模型的最新进展大大缩小了人类和机器视觉处理之间的差距,但传统的 VQA 仅限于一次推理单个图像,而不是整个视觉数据集合。这种限制在更复杂的场景中带来了挑战。例如,辨别医学图像集合中的模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化、分析大型艺术收藏中的主题元素或从零售监控录像中了解消费者行为等挑战。这些场景中的每一个不仅需要对数百或数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了弥补这一差距,本项

MJ-BENCH:用于评估文本到图像生成的多模式 AI 基准,重点关注对齐、安全性和偏差

MJ-BENCH: A Multimodal AI Benchmark for Evaluating Text-to-Image Generation with Focus on Alignment, Safety, and Bias

文本到图像生成模型已经通过先进的 AI 技术获得了关注,能够根据文本提示生成详细且上下文准确的图像。该领域的快速发展导致了许多模型的出现,例如 DALLE-3 和 Stable Diffusion,旨在将文本转换为视觉上连贯的图像。文本到图像生成中的一个重大挑战是帖子 MJ-BENCH:用于评估文本到图像生成的多模式 AI 基准,重点关注对齐、安全性和偏差,首先出现在 AI Quantum Intelligence 上。

Spellbook 推出合同“基准”以展示市场

Spellbook Launches Contract ‘Benchmarks’ to Show What’s Market

Spellbook 是法律 genAI 应用程序的早期先驱,它推出了 Benchmarks,这是一款“一目了然”的工具,可帮助律师快速发现合同可能“不合时宜”的地方......

Anthropic Claude 3.5 Sonnet 在 Kensho 的 S&P AI 基准测试中,在商业和金融领域排名第一

Anthropic’s Claude 3.5 Sonnet ranks number 1 for business and finance in S&P AI Benchmarks by Kensho

Anthropic Claude 3.5 Sonnet 目前在 Kensho 的 S&P AI 基准中名列前茅,该基准评估了金融和商业的大型语言模型 (LLM)。Kensho 是 S&P Global 的 AI 创新中心。借助 Amazon Bedrock,Kensho 能够快速运行 Anthropic Claude 3.5 Sonnet 以应对一系列具有挑战性的业务和财务挑战 […]

在菲律宾建立基准收益率曲线

Establishing a benchmark yield curve in Philippines

菲律宾中央银行行长 Eli M Remolona,​​ Jr 在这次演讲中谈到了使用利率互换建立收益率曲线:今天我们的重点主题是“使用利率互换构建基准收益率曲线”。我对这个话题有自己强烈的看法,但因为我们有如此优秀的 […]

LITIG 组建法律行业 AI 基准测试计划

LITIG Forms Legal Industry AI Benchmarking Initiative

LITIG,法律 IT 创新者集团,在人工智能律师的支持下,成立了法律行业 AI 基准合作计划,以解决...

Salesforce 推出生成式 AI 基准

Salesforce представляет бенчмарк для генеративного ИИ

LLM评估工具旨在帮助公司了解不同模式的优缺点,并根据其业务目标做出明智的决策。

兰德研究强调确保人工智能模型权重的重要性;为前沿人工智能实验室提供用于基准安全措施的手册

RAND Study Highlights Importance of Securing AI Model Weights; Provides Playbook for Frontier AI Labs to Benchmark Security Measures

在人工智能快速发展及其对国家安全的潜在风险的背景下,兰德公司的一项新研究探讨了如何最好地保护前沿人工智能模型免受恶意行为者的攻击。

JARVIS-Leaderboard:材料设计方法的大规模基准

JARVIS-Leaderboard: A Large Scale Benchmark of Materials Design Methods

CHIPS 计量计划 CHIPS 计量计划利用 NIST 成熟的测量科学专业知识来开展准确、精确且适合微电子材料、设备生产用途的测量研究

RAMP - 评估机器人装配处理和规划的基准

RAMP - эталон для оценки манипулирования и планирования роботизированной сборки

机器人领域的研究在过去十年中迅速发展,旨在解决对工业和社会具有真正价值的问题。随着新的机器人系统不断涌现,开发可用于评估其性能并测试其功能基础算法的可靠工具非常重要。

基准下一代永无止境的学习者

Benchmarking the next generation of never-ending learners

学习如何通过利用30年的计算机视觉研究来基于知识

基准下一代永无止境的学习者

Benchmarking the next generation of never-ending learners

学习如何通过利用30年的计算机视觉研究来基于知识

基准下一代永无止境的学习者

Benchmarking the next generation of never-ending learners

学习如何通过利用30年的计算机视觉研究来基于知识

基准下一代永无止境的学习者

Benchmarking the next generation of never-ending learners

学习如何通过利用30年的计算机视觉研究来基于知识

对下一代永无止境的学习者的基准测试

Benchmarking the next generation of never-ending learners

学习如何利用 30 年的计算机视觉研究来积累知识

CARLA:用于对算法追索和反事实解释算法进行基准测试的 Python 库

CARLA: A Python Library to Benchmark Algorithmic Recourse and Counterfactual Explanation Algorithms

CARLA(反事实和追索库)是一个 Python 库,用于对不同数据集和不同机器学习模型中的反事实解释方法进行基准测试。总之,我们的工作提供了以下贡献:(i)对 11 种流行的反事实解释方法进行了广泛的基准测试,(ii)用于研究未来反事实解释方法的基准测试框架,以及(iii)一套标准化的综合评估措施和数据集,用于对这些方法进行透明和广泛的比较。我们在 Github 上开源了 CARLA 和我们的实验结果,使它们可以作为有竞争力的基准。我们欢迎其他研究小组和从业人员的贡献。

网络职业领域讨论新的培训基准

Cyber career field discusses new training baseline

第 81 训练支援中队于 7 月 19 日至 23 日在基斯勒空军基地主办了网络作战专业培训和要求团队会议。

自动化和保护:陆军为 2025 年网络设定基准

Automated and protected: Army sets benchmark for 2025 network

马里兰州哈佛德格雷斯(2021 年 6 月 2 日)——到 2025 年,士兵将越来越多地与机器合作,快速分析大量数据,为指挥官提供数据……