Bench关键词检索结果

mia bench:在评估多模式LLMS

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们介绍了MIA Bench,这是一种新的基准测试,旨在评估多模式大型语言模型(MLLM),以严格遵守复杂的说明。我们的基准包括一组400个图像推出对,每个基准都旨在挑战模型对分层指令的遵守,以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异,突出了改善教学保真度的领域。此外,我们创建了额外的培训数据和…

我尝试制作自己的(糟糕的)LLM 基准以在密室逃脱中作弊

I Tried Making my Own (Bad) LLM Benchmark to Cheat in Escape Rooms

最近,DeepSeek 发布了他们的最新模型 R1,一篇又一篇文章称赞其相对于成本的性能,以及此类开源模型的发布如何真正永远改变 LLM 的发展方向。这真是令人兴奋!而且,范围太大了,无法一一列举……但是当像 DeepSeek 这样的模型 […]The post I Tried Making my own (Bad) LLM Benchmark to Cheat in Escape Rooms 首次出现在 Towards Data Science 上。

DevAI 筹集 600 万美元,通过网络智能代理彻底改变企业 IT

DevAI Raises $6M to Revolutionize Enterprise IT with Network Intelligence Agents

作为人工智能驱动的 IT 解决方案的新兴力量,DevAI 在 Emergence Capital 领投的超额认购种子轮融资中获得了 600 万美元,这对企业 IT 是一个重大推动。在此轮融资中,Pear VC、Base10 和 Benchstrength 也参与其中,此前 Pear VC 进行了 100 万美元的种子前投资。DevAI 正在应对一项关键挑战 […] 文章 DevAI 筹集 600 万美元,通过网络智能代理彻底改变企业 IT,首先出现在 Unite.AI 上。

加速大规模数据准备和 AI 协作

Accelerate data preparation and AI collaboration at scale

了解如何使用 NextGen WorkBench 加速 AI 开发。自动准备数据、解锁非结构化数据并在统一空间中进行协作。文章“加速大规模数据准备和 AI 协作”首先出现在 DataRobot 上。

欺骗你的多模态 LLM 有多容易?对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……

用于大型语言模型中快速推测解码的循环起草器

Recurrent Drafter for Fast Speculative Decoding in Large Language Models

我们提出了 Recurrent Drafter (ReDrafter),这是一种先进的推测解码方法,可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动:(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件,(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀,以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 使用 PyTorch 将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍……

检测社交媒体量时间序列中的异常

Detecting Anomalies in Social Media Volume Time Series

我如何检测社交媒体量中的异常:基于残差的方法照片由 Joshua Hoehne 在 Unsplash 上拍摄在社交媒体时代,分析对话量对于了解用户行为、检测趋势以及最重要的是识别异常至关重要。了解异常发生的时间可以帮助管理层和营销部门应对危机情况。在本文中,我们将使用来自 Twitter 的真实示例,探索一种基于残差的方法来检测社交媒体量时间序列数据中的异常。对于这样的任务,我将使用 Numenta Anomaly Benchmark 的数据,它提供了 Twitter 帖子的成交量数据,其基准测试中有 5 分钟的帧窗口。我们将从两个角度分析数据:作为第一个练习,我们将使用完整数据集检测异常,然

VQAScore:评估和改进视觉语言生成模型

VQAScore: Evaluating and improving vision-language generative models

简介 文本到图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几只巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:但我们如何知道这些模型是否生成了我们想要的东西?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标 (VQAScore) 和基准数据集

开发人员遭遇生产力瓶颈的五大原因及解决办法

开发人员遭遇生产力瓶颈的五大原因及解决办法

开发人员一旦遭遇瓶颈,情况通常十分严峻。横亘在生产力提升路径上的往往是同样的五大障碍。这些问题听来是否耳熟?“我没有自己的空间用来在共享模型前先行实验。”“模型开发过程旷日持久。”“我们所需的基础架构成本过高。”“很难跟踪版本更新。”“每个人使用相同数据集得出的结果并不相同。”SAS 和 AWS 共同编写的这本电子书将详细探讨上述障碍,同时介绍如何借助 SAS® Viya® Workbench 克服这些障碍。让阻碍生产力的问题成为过去式。

每周回顾 2024 年 10 月 25 日

Weekly Review 25 October 2024

我上周在 Twitter 上发布的一些有趣的链接(我也在 Mastodon、Threads、Newsmast 和 Bluesky 上发布了这些链接):人工智能在保护珊瑚礁中的应用:https://www.datasciencecentral.com/how-machine-learning-helps-save-coral-reefs-by-listening/高等教育对人工智能的准备仍然不足:https://www.insidehighered.com/news/tech-innovation/artificial-intelligence/2024/10/16/campus-tech-le

到 2030 年,欧盟的关键矿产缺口将如何

Visualizing The EU's Critical Minerals Gap By 2030

到 2030 年欧盟关键矿产缺口可视化欧盟的《关键原材料法》列出了若干雄心勃勃的目标,以增强其关键矿产供应链的弹性。正如 Visual Capitalist 的 Bruno Venditti 在下文中详细介绍的那样,该法案包括非约束性目标,要求欧盟建立足够的采矿能力,以便欧盟内的矿山可以满足其 10% 的关键矿产需求。此外,该法案还设定了 40% 的需求通过欧盟内部加工来满足,25% 的需求通过回收来满足的目标。在该法案于 2024 年 5 月通过几个月后,这张图表突显了欧盟旨在克服的挑战的规模。该数据完全来自 Benchmark Mineral Intelligence,截至 2024 年

MJ-BENCH:用于评估文本到图像生成的多模式 AI 基准,重点关注对齐、安全性和偏差

MJ-BENCH: A Multimodal AI Benchmark for Evaluating Text-to-Image Generation with Focus on Alignment, Safety, and Bias

文本到图像生成模型已经通过先进的 AI 技术获得了关注,能够根据文本提示生成详细且上下文准确的图像。该领域的快速发展导致了许多模型的出现,例如 DALLE-3 和 Stable Diffusion,旨在将文本转换为视觉上连贯的图像。文本到图像生成中的一个重大挑战是帖子 MJ-BENCH:用于评估文本到图像生成的多模式 AI 基准,重点关注对齐、安全性和偏差,首先出现在 AI Quantum Intelligence 上。

Spellbook 推出合同“基准”以展示市场

Spellbook Launches Contract ‘Benchmarks’ to Show What’s Market

Spellbook 是法律 genAI 应用程序的早期先驱,它推出了 Benchmarks,这是一款“一目了然”的工具,可帮助律师快速发现合同可能“不合时宜”的地方......

与 Vijay Pande 博士 (a16z) 一起探讨研究生院、创业和风险投资

Grad School, Entrepreneurship, and VC with Dr. Vijay Pande (a16z)

6 月份,斯坦福生物技术集团邀请了 a16z 普通合伙人兼 a16z Bio Fund 创始人 Vijay Pande 博士进行炉边谈话。讨论的重点包括:在生物学和技术的交叉领域进行创新在 a16z bio 基金中形成投资论文及其自成立以来的发展数据在生物技术公司中不断演变的角色从创业、风险投资和研究生院中吸取的教训您可以在下面访问整个录音关于作者Sevahn VorperianSevahn 是 Quake 实验室的研究生,也是化学工程系的博士生。她对所有测序事物都充满热情,并利用各种测量技术来获得对人类健康和疾病的定量见解。Sevahn 获得了 NSF 研究生奖学金、Benchmark 斯坦

国防部的诉讼方式:误导、高度对抗和虐待(第一部分和第二部分)

Defence Ministry’s approach to litigation: misdirected, highly adversarial and sadistic (Parts I & II)

(最初发表于 Bar& Bench)NavdeepSingh 这可能是我写过的最奇怪、最长的评论文章,因此它分为两部分,尽管是同时发表的。再次,像以前很多次一样,我必须事先警告,写这篇文章是为了鼓励讨论和反思,而不是为了引起骚动、贬低任何实体或为悲观情绪提供杠杆。在 1990 年代末/2000 年代初,根据当时旁遮普邦和哈里亚纳邦高等法院的名册,与印度联邦服务事务相关的诉讼被分配给法官 RL Anand,他是一位强势但人道且敏感的法官。在听取一位老军人遗孀的案件时,他在公开法庭上发表的言论,不是开玩笑,而是非常严肃,一直萦绕在我的脑海里。他说,如果诉讼当事人提交了一份诉状,其中指出太阳从东方升

FindFace是俄罗斯的面部识别算法,击败了谷歌。专访 Artem Kukharenko(NtechLab 创始人)

FindFace — российский алгоритм по распознаванию лиц, победивший Google. Интервью с Артемом Кухаренко (основатель NtechLab)

2015年12月,华盛顿大学组织的The MegaFace Benchmark国际竞赛结果总结,来自世界各地的人脸识别算法和系统进行了角逐。令所有参赛者大吃一惊的是,此前默默无闻的俄罗斯团队 NtechLab 凭借 FindFace 算法获胜。

声音医学 - 对《平价医疗法案》挑战

Sound Medicine – Challenge to the Affordable Care Act

我整个星期都在库拉姆(Coulam),费尔德曼(Feldman)和道德(Dowd)发表博客:《平价医疗法案》(Pub。L.111-148 [2010]),以平均为付款领域的竞争竞标领域的竞争竞标,逐步过渡到2015年竞争性的Benchmark Price竞争。首次出现在偶然的经济学家中。

为什么从卫生改革中剥夺了竞争性竞标?

Why was competitive bidding stripped from health reform?

我整个星期都在库拉姆(Coulam),费尔德曼(Feldman)和道德(Dowd)发表博客:《平价医疗法案》(Pub。L.111-148 [2010]),以平均为付款领域的竞争竞标领域的竞争竞标,逐步过渡到2015年竞争性的Benchmark Price竞争。首次出现在偶然的经济学家中。 Sound Medicine是由印第安纳大学医学院和WFYI公共广播电台制作的广播节目。我正在播放本周的广播,谈论对ACA的法律挑战:《平价医疗法案》(也称为2011年医疗改革法),这是接近在美国最高法院面前的听证会,可能是在[…]邮政的《邮政医学》 - 对《负担得起的护理法》首次出现在偶然经济学家上的