New (old) models of teaching and assessment
您可以在没有考试或设定问题的情况下评估学生吗?正如斯蒂芬·布朗(Stephen Brown)所解释的那样,我们已经做了多年
Evaluate models or RAG systems using Amazon Bedrock Evaluations – Now generally available
今天,我们很高兴地宣布亚马逊基岩评估中这些评估功能的总体可用性,以及使它们完全不合时宜的重大增强功能。在这篇文章中,我们详细探讨了这些新功能,向您展示了如何通过实例来评估抹布系统和模型。我们演示了如何利用比较功能对不同的实现进行基准测试,并就您的AI部署做出数据驱动的决策。
Improve Amazon Nova migration performance with data-aware prompt optimization
在这篇文章中,我们提出了LLM迁移范式和体系结构,包括连续的模型评估过程,使用Amazon Bedrock及时生成,以及数据吸引的优化。该解决方案在迁移之前评估模型性能,并使用用户提供的数据集和目标指标迭代优化Amazon Nova模型提示。
MM-Ego: Towards Building Egocentric Multimodal LLMs
这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标,我们在三个方面工作。首先,由于缺乏质量为中心的视频理解的质量检查数据,因此我们将自动生成7m高质量的质量质量样本,用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次,我们通过629个视频和7,026个问题来贡献一个具有挑战性的QA基准,以评估模型的识别能力和…
An Atmospheric River Exacerbated Türkiye’s 2023 Earthquake Crisis
一项新的研究揭示了在两次地震袭击Türkiye和叙利亚之后,大气河如何造成更大的破坏,强调需要更好的风险评估模型。
OpenAI släpper PaperBench som utvärderar AI:s förmåga att replikera AI-forskning
PaperBench是OpenAI的一种新工具,旨在系统地评估人工智能模型理解和复制AI地区研究文章的能力。该计划是通过为研究人员提供一个评估模型科学能力的结构化框架来开发更复杂的AI系统的重要步骤。基准测试由ICML的20篇研究文章组成[…] Openai邮报释放了Paperbench,该纸质板评估了AI首先出现在AI新闻中的AI复制AI研究的能力。
How we’re empowering teachers with high-quality assessment
我们的新评估模型为关键阶段3提供了变革性的能力 - 您可以自己尝试一下FreeThe Post我们如何赋予教师具有高质量评估的能力,首次出现在学校周。
美国政府问责署的发现为应对新冠疫情,美联储理事会批准了 13 项紧急贷款计划(称为贷款工具),以确保整个经济的信贷流动。为了加强对这些计划的监督,美联储从 2020 年 12 月到 2024 年 6 月发布了七份报告,评估了其内部流程和控制措施,例如风险管理和网络安全。这些报告确定了 20 个加强内部控制的机会。美国政府问责署发现,管理这些贷款工具的联邦储备银行已充分解决了 20 个机会中的 19 个。剩余的机会与贷款工具的评估模型有关,该模型用于监控贷款的信用质量,目前正在审查中。美国政府问责署还发现,美联储对这些贷款工具的持续监控计划基本符合联邦内部控制标准。主街贷款计划下的五个贷款工具针
Smart Audit System Empowered by LLM
制造质量审核对于确保大规模生产环境中的高产品标准至关重要。然而,传统的审计流程是劳动密集型的,严重依赖人类的专业知识,这对在复杂的全球供应链中保持透明度、问责制和持续改进构成了挑战。为了应对这些挑战,我们提出了一个由大型语言模型 (LLM) 赋能的智能审计系统。我们的方法引入了三个关键创新:一个简化审计程序和优化资源分配的动态风险评估模型;一个……
Artificial Intelligence: Generative AI Training, Development, and Deployment Considerations
GAO 发现商业开发者使用几种常见做法来促进生成人工智能 (AI) 技术的负责任开发和部署。例如,他们可以使用基准测试来评估模型的准确性,在部署之前雇用多学科团队来评估模型,并进行红队测试以测试其模型的安全性并识别潜在风险等。这些做法侧重于定量和定性评估方法,以提供准确和情境化的结果,以及防止有害输出。此外,商业开发者在负责任地开发和部署生成 AI 技术以确保其安全可靠方面面临一些限制。首先,开发人员认识到他们的模型并不完全可靠,用户判断应该在接受模型输出方面发挥作用。在各种白皮书、模型卡和其他文档中,他们指出,尽管采取了缓解措施,但他们的模型可能会产生不正确的输出、表现出偏见或容易受到攻击。
九州大学、东京工业大学和加州大学圣地亚哥分校最近领导的一项研究发现,仅仅关注增加女学者的比例不足以准确评估日本的性别平等。研究人员提出了一种新的评估模型,该模型结合了女性的比例和总数以及她们的学业成绩,以提供更全面的评估并支持女性积极参与学术界。
数据集的理论在哪里?将数据集拆分为训练数据和测试数据的典型模型允许统计有效性来评估模型性能。然而,在现实世界中,通常不仅要考虑一个数据源,还要考虑许多不同的数据源;训练集的构建和处理远非易事。一方面,特定应用的定制数据可能非常有限或根本不可用。另一方面,使用所有可能的数据源也可能导致大量问题,包括分布不匹配和数据质量下降。鉴于不同数据源的质量、大小和组成可能有所不同;目前尚不清楚数据管理如何影响下游模型性能。最近的一系列实证研究已经针对各种类型的模型和下游任务研究和优化了数据组合。然而,在对不同数据组合场景的理论属性进行建模和分析方面的工作有限。数据管理是一个难题,因为最佳数据组合的搜索空间很
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……
IEEE Transactions on Emerging Topics in Computational Intelligence, Volume 8, Issue 4, August 2024
1) 深度学习视频超分辨率综述作者:Arbind Agrahari Baniya、Tsz-Kwan Lee、Peter W. Eklund、Sunil Aryal页数:2655 - 26762) 神经动力学优化综述作者:Youshen Xia、Qingshan Liu、Jun Wang、Andrzej Cichocki页数:2677 - 26963) 用于知识图谱补全的图形结构增强预训练语言模型作者:Huashi Zhu、Dexuan Xu、Yu Huang、Zhi Jin、Weiping Ding、Jiahui Tong、Guoshuang Chong页数:2697 - 27084) 通过基
How Should You Test Your Machine Learning Project? A Beginner’s Guide
使用 Pytest 和 Pytest-cov 等标准库对机器学习项目进行测试的友好介绍代码测试,图片由作者提供简介测试是软件开发的重要组成部分,但根据我的经验,它在机器学习项目中被广泛忽视。很多人都知道他们应该测试他们的代码,但很少有人知道如何做并真正做到这一点。本指南旨在向您介绍测试机器学习流程各个部分的基本知识。我们将专注于在 IMDb 数据集上对 BERT 进行文本分类微调,并使用 pytest 和 pytest-cov 等行业标准库进行测试。我强烈建议您遵循此 Github 存储库中的代码:GitHub - FrancoisPorcher/awesome-ai-tutorials:最好
GAO 的发现除了为美国 50 个州和哥伦比亚特区的退伍军人提供服务外,退伍军人事务部 (VA) 还负责为太平洋上三个外国国家(统称为“美国”)的退伍军人提供医疗保健和其他福利。自由联系州 (FAS) 和美国五个领土。领土和自由联系州及其距华盛顿特区的距离 弗吉尼亚州使用模型来估计退伍军人人口规模,以告知资源分配和外展需求。然而,VA 无法保证该模型的估计对于领土和 FAS 退伍军人来说是准确的,例如,该模型的一个主要数据源不包括大多数这些地点的数据。此外,这些地区的当地利益相关者一致表示,VA 的估计偏低。评估模型的数据源和其他数据集的可用性,并进行适当的更改,可以帮助 VA 确保其领地和
My Climate Change Policy Assumptions and Expectations
Matthew Kahn 发布了他对气候变化的工作假设列表。我认为看到这些假设被列出而不是仅仅含蓄地表达出来真的很有启发性。所以我想列出我的想法来回应 Matt 的每一个观点。在下文中,Matt 的观点以粗体显示,而我的观点以纯文本显示。1. 我认为全球温室气体排放量将在未来几十年继续上升。尽管气候政策相对较弱,但非碳排放能源技术的技术变革却出人意料地快。这让我乐观地认为排放量很快就会开始下降。我们过去常常谈论像 RCP 8.5 这样的急剧上升的排放路径。在最近的 IPCC 报告中,一切照旧现在是一个相当平坦的排放路径(并不是说我们应该过分重视共识)。另一方面,我对能源强度下降幅度与许多综合评
Measuring perception in AI models
感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。