Widespread AI misuse by college students signals need to rethink assessment
康奈尔大学的一项研究显示,三分之一的大学生使用生成式人工智能来做作业,其中 9% 的人承认作弊。研究人员敦促紧急进行评估改革,以维护学术诚信。
VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models
流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下,流式 VLM 的性能取决于纯视频理解之外的其他指标,包括主动性(反映模型响应的及时性)和一致性(反映模型响应随时间的稳健性)。为了解决这个限制,我们提出了 VSAS-Bench,一个新的......
52d ADA BDE assesses IonStrike interceptors to support EFDI
第 52 防空炮兵旅 (52d ADA BDE) 正在测试和评估新的反无人机系统 (c-UAS) 能力,包括 IonStrik...
Is it time for the U.S. to reassess its Iran strategy?
随着谈判陷入僵局,伊朗继续控制霍尔木兹海峡,特朗普总统正在考虑是否重启战争。打击未能消灭伊朗政权或摧毁其军事和核能力,那么美国现在是重新评估其战略的时候了吗? Compass Points 版主 Nick Schifrin 与 Sina Azodi、Justin Logan、Firas Maksad 和 Danielle Pletka 讨论了这一问题。
MDL evaluating mega shipyard in Maharashtra, says chairman
他表示,过去 15 年中,MDL 在其孟买船厂执行了价值 8400 亿卢比的军舰和潜艇项目
How To Choose An LMS For Higher Education: A Practical Evaluation Framework For Universities
选择 LMS 进行高等教育?使用这个实用框架来评估集成、可访问性、报告、教师采用、学生体验和治理。这篇文章首先发表在电子学习行业。
RCFA prioritizes student assessment and safety
佐治亚州本宁堡 — 2025 年 6 月,空降和游骑兵训练旅完善了游骑兵课程的入学要求,实施了游骑兵...
Artificial Intelligence: A Framework to Assess U.S. Competitiveness and Inform Policy Options
如何使用框架GAO的框架是一种评估美国人工智能能力和能力及其竞争力的方法。一个国家在人工智能方面的竞争力是指与其他国家相比,它开发或部署人工智能技术的能力。政策制定者可能有兴趣了解美国在人工智能竞赛中与其他国家的比较。 GAO 开发这个框架是为了帮助来自政府、工业界、学术界和其他地方的分析师获取并向政策制定者提供有关人工智能竞争力的结构化信息。影响人工智能竞争力的因素的复杂性使得很难确定哪些因素比其他因素更重要。该框架将相关因素分为四个支柱:科学与技术。技术、人力资本、治理和经济。每个支柱又分为子支柱,例如研发;法律、法规和政策;劳动力;以及投资和融资。分析师可以利用这些支柱和子支柱来系统地考
National Assessment Governing Board to restore previously cut NAEP exams
除了在 2032 年恢复州级 12 年级阅读和数学测试外,还将为各州提供某些科目和年级的更多数据。
Generative AI use and misuse call for assessment reform in higher education | Science
人工智能工具的滥用和获取机会不平等的现象日益严重,要求大学重新思考如何评估学习
Suicide Prevention: DOD Should Improve Monitoring and Assessment of Training
GAO 的发现国防部 (DOD) 国防部自杀预防办公室 (DSPO) 负责整个部门的自杀预防工作,但缺乏信息来监控整个国防部完成所需的自杀预防培训。具体来说,DSPO 官员告诉政府问责局,该办公室没有从军方收到有关他们是否完成培训的数据。要求各军种报告其训练完成率将为 DSPO 提供做出明智决策所需的数据,因为 DSPO 负责监督训练并制定国防部范围内的自杀预防政策。此外,各军种总部的自杀预防办公室通常不会有效监控其军人的训练完成情况。陆军、海军和海军陆战队办公室不会定期跟踪所需的年度训练完成情况,只有国民警卫队局采取行动帮助确保训练完成。解决这些问题将有助于军种总部办公室确保培训和特定军种的
Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals
如果您正在构建视觉购物、图像或文档理解或图表分析,您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]
The Hidden Cost of PreK Assessment — and a Better Way Forward
这是目前幼儿教育界最受争议的问题之一:技术是否属于学前班课堂?本月早些时候,我们聚集了三位主要声音来深入研究这项研究,结果发现答案比简单的是或否更细致、更人性化,也更有希望。《学前班评估的隐藏成本——以及更好的前进之路》一文首先出现在可汗学院博客上。
In ‘How to Rule the World,’ Theo Baker sizes up the ‘Stanford-within-Stanford’
坎宁安写道:“贝克的书既讲述了斯坦福大学——作为一个地方、理念和机构——也讲述了年轻人的意义。”西奥·贝克在《如何统治世界》一文中对“斯坦福中的斯坦福”进行了评估,首先出现在《斯坦福日报》上。
Исследователи Сбера представили инструмент для оценки долгосрочных прогнозов ИИ-моделей
俄罗斯储蓄银行实用人工智能中心的科学家们提出了第一个开放平台,用于评估神经网络长期预测事件的能力。
NTI Club Movement 和 Innopolis 大学发布了首次针对机器人界技术产品的研究结果。专家们制定了一种评估方法和测试程序,其结果允许俱乐部选择一套或另一套用于学童准备和参加工程竞赛。
Финалисты Олимпиады Кружкового движения НТИ разрабатывали компьютерную систему для оценки эмоций
国家技术倡议(NTI)俱乐部运动奥林匹克竞赛在“神经技术和认知科学”方面的决赛已经结束。 2020/21年度,该专业作为二级奥林匹克竞赛被列入俄罗斯中小学生奥林匹克委员会名单——在该竞赛中获胜将获得生物或计算机科学国家统一考试100分,并有利于进入该国领先的技术大学。
喀山联邦大学生态与自然资源管理研究所三年级研究生Elvira Nasyrova在应用生态学系主任Oleg Nikitin的指导下,正在开展“利用计算机视觉技术评估水体环境安全”的科研工作。该项目的本质是开发一种评估水生环境状况的新方法。