数据集关键词检索结果

加州大学洛杉矶分校法学院的监狱数据项目编制了第一个关于 ICE 拘留期间死亡的完整数据集

Behind Bars Data Project at UCLA Law compiles first full dataset on deaths in ICE custody

该资源为研究人员、记者、倡导者、政策制定者和公众提供了有关近 300 名在 ICE 拘留期间死亡的人的详细见解。

Bones Studio 将发布 BONES-SEED - 第一个专为人形机器人构建的多模态运动数据集

Bones Studio to Release BONES-SEED - the First Multimodal Motion Dataset Purpose-Built for Humanoid Robotics

到目前为止,构建人形机器人的研究人员和初创公司面临着严峻的挑战:没有专门为机器人设计的公开可用的大规模带注释运动数据集。在 GTC 2026 上,Bones Studio 正在利用 NVIDIA 技术缩小这一差距。

mAceReason-Math:为 RLVR 准备的高质量多语言数学问题数据集

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...

我们在真实数据集上使用了 5 种离群值检测方法:它们对 96% 的标记样本不一致

We Used 5 Outlier Detection Methods on a Real Dataset: They Disagreed on 96% of Flagged Samples

在至少通过一种方法标记的 816 种葡萄酒中,只有 32 种进入了一致名单。这些酒有一些共同点。

人工智能通过海量数据集增强化学性能

AI Supercharges Chemistry with Massive Dataset

为什么重要:人工智能通过海量数据集增强化学能力,揭示了 ANI-1x 如何利用人工智能改变分子建模。

通过探索扩展代理的综合任务生成

Scaling Synthetic Task Generation for Agents via Exploration

用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们介绍...

Keel 加入 Palantir 和美国海军的 ShipOS 计划,加速潜艇生产

Keel Joins Palantir and U.S. Navy in ShipOS Initiative to Accelerate Submarine Production

Keel Holdings 是美国海军和更广泛的海军、陆地和太空应用国防应用领域的先进制造领导者,与 Palantir Technologies Inc. 合作,宣布开展一项重大合作,支持美国海军的 ShipOS 计划,该计划旨在通过先进的人工智能和数据集成改造美国海事工业基地 (MIB)。 Keel ...Keel 加入 Palantir 和美国海军的 ShipOS 计划以加速潜艇生产的帖子首先出现在《海军新闻》上。

[爬虫学 • 2025] Quasipaa yunkaiensis • 来自中国广东的 Quasipaa 属新种(无尾目:Dicroglossidae)

[Herpetology • 2025] Quasipaa yunkaiensis • A New Species of the Genus Quasipaa (Anura: Dicroglossidae) from Guangdong, China

Quasipaa yunkaiensis Qi, Lyu, Song, Wang, Z. Li, Y. Li & Wang, 2025云开棘蛙 || DOI: doi.org/10.3724/ahr.2095-0357.2025.0031 摘要我们在此描述了一种新的刺蛙物种,Quasipaa yunkaiensis sp。十一月来自中国广东省信宜市云开山国家级自然保护区。形态学检查结合线粒体(810 bp Cyt b)和核(1 852 bp 连接的 Rag2、Tyr 和 Rhod)遗传数据用于测试其在 Quasipaa 中的独特性。在形态学上,新物种与其他同类物种的不同之处在于以下诊断特征:Q

[爬虫学 • 2026] Hemiphyllodactylus dayaoensis、H. maguanensis、H. xingyiensis、... • 云南半叶指蜥复合体(有鳞目:壁虎科)的系统修订及六种新种的描述

[Herpetology • 2026] Hemiphyllodactylus dayaoensis, H. maguanensis, H. xingyiensis, ... • Systematic Revision of the Hemiphyllodactylus yunnanensis complex (Squamata: Gekkonidae) with Descriptions of Six New Species

Hemiphyllodactylus yunnanensis (Boulenger, 1903)Hemiphyllodactylus dayaoensis sp.十一月;H.京东山雀十一月;H.马关亚种十一月;H.双白虫nov.Zhou, Wang, Han, Ang, Zhang, Liu & Rao, 2026DOI: doi.org/10.1038/s41598-026-35912-9AbstractHemiphyllodactylus Bleeker 1860 是壁虎科中生长最快的属之一,包括分布在中国的 22 种,其中 Hemiphyllodactylus云南龙被认为是一个物种复合体

NIST 发布 NIR-SORT 2.0:增强纺织原料识别的模型验证

NIST Releases NIR-SORT 2.0: Enhancing Model Validation for Textile Feedstock Identification

美国国家标准与技术研究院 (NIST) 发布了 NIR-SORT 2.0,这是其光谱织物表征数据集的重大技术扩展。此更新提供了对于

可视化解决方案中的模式:数据结构如何影响编码风格

Visualizing Patterns in Solutions: How Data Structure Affects Coding Style

阅读有关数据集结构如何驱动窗口函数、CTE、JOIN 和 pandas 合并模式的实证分析。

神经网络如何学习自己的欺诈规则:神经符号人工智能实验

How a Neural Network Learned Its Own Fraud Rules: A Neuro-Symbolic AI Experiment

大多数神经符号系统都会注入人类编写的规则。但如果神经网络本身能够发现这些规则呢?在本实验中,我使用可微规则学习模块扩展了混合神经网络,该模块在训练期间自动提取 IF-THEN 欺诈规则。在 Kaggle 信用卡欺诈数据集(欺诈率为 0.17%)上,该模型学习了可解释的规则,例如:神经网络如何学习其自己的欺诈规则:神经符号 AI 实验首先出现在《走向数据科学》上。

废品净零:戏剧性的新冰芯证据表明,本世纪变暖在过去 40 万年中普遍存在

Scrap Net Zero: Dramatic New Ice Core Evidence Shows Current Century Warming Common Throughout the Last 400,000 Years

此数据集中的二氧化碳水平在 170 ppm (ppm) 到 280 ppm 之间变化。如果浓度低于 150 ppm,光合作用就会停止,陆地生物几乎肯定会发生大规模灭绝。哈顿观察到,在 80 万年的东方数据库中,有 556 个世纪的二氧化碳浓度低于 190 ppm。

两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案

A Tale of Two Variances: Why NumPy and Pandas Give Different Answers

假设您正在分析一个小数据集:您想要计算一些汇总统计数据以了解该数据的分布,因此您使用 numpy 来计算均值和方差。你的输出看起来像这样:太棒了!现在您已经了解了数据的分布。然而,你的同事来了……《两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案》一文首先出现在《走向数据科学》上。

破坏央行独立性的宏观经济后果:行长换届的证据

The Macroeconomic Consequences of Undermining Central Bank Independence: Evidence from Governor Transitions

国际货币基金组织的 Marijn A. Bolhuis、Rui Mano 和 Hedda Thorell 研究了行长换届对央行独立性的影响:本文研究了出于政治动机的央行行长换届破坏央行独立性的宏观经济后果。利用涵盖 28 个先进和新兴国家 132 个央行行长换届的新面板数据集 [...]

打开宝库:金星历史档案馆之旅

Opening a Treasure Trove: A Trip to the Historic Archives of Venus

1989 年之前,前麦哲伦轨道飞行器和金星地面探索产生了重要的数据集,这些数据集在规划未来的金星任务时非常有用。

可塑性思维:背景积累驱动LLM的信念漂移

The malleable mind: context accumulation drives LLM’s belief drift

在接受了包含 80,000 个保守政治哲学单词的数据集的训练后,Grok-4 在超过四分之一的时间里改变了其输出对政治问题的立场。这没有任何对抗性提示——训练数据的变化就足够了。由于记忆机制和研究代理 [1, 2] 使法学硕士能够积累 [...]