数据集关键词检索结果

飓风伊恩数据集揭示了一层标高与洪水损坏之间的联系

Hurricane Ian dataset reveals link between first-floor elevation and flood damage

进入房屋的第一步非常重要。在评估飓风造成的洪水风险时,一楼标高可能是一个关键因素。美国联邦紧急事务管理局 (FEMA) 等机构在其损害建模 Hazus 项目中依赖诸如一楼标高等数据。

Pico-Banana-400K:用于文本引导图像编辑的大规模数据集

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......

PrimeX:世界观、观点和解释的数据集

PrimeX: A Dataset of Worldview, Opinion, and Explanation

随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……

在固定预算下为法学硕士选择最佳模型大小和数据集大小

Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs

使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。

我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道

How I Built a Data Cleaning Pipeline Using One Messy DoorDash Dataset

清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。

利用人工智能建设更安全的道路:应急车辆数据集

Building Safer Roads with AI: The Emergency Vehicle Dataset

用于开发自动驾驶汽车系统的大多数训练数据集往往侧重于日常物体,例如普通汽车、步行的人和自行车。然而,这种常见的方法往往会忽略重要但不常见的车辆,例如救护车和警车。新发布的计算机生成数据集,名为 EMS3D-KITTI,旨在缩小这一差距。 [...]

在大型观察数据集中解码非线性信号

Decoding Nonlinear Signals in Large Observational Datasets

介于两者之间的雨水,雪或某些东西?在大型观察数据集中解码非线性信号的帖子首先出现在数据科学上。

公司科学家是否为牢固的创新做出了贡献?通过使用日本公司的研究论文和专利的链接数据集的经验分析

Do Corporate Scientists Contribute to Firm Innovation? Empirical analysis by using linked dataset of research papers and patents in Japanese firms

Ishida Ryo(财政部) / Oguro Kazumasa(Rieti咨询研究员) / Yasuoka Masaya(Kwansei Gakuin University)< / div>

数字宣布与布鲁克菲尔德的战略合作伙伴关系来扩展AI基础架构,并建立世界上最大的类人形生物预处理数据集

Figure Announces Strategic Partnership with Brookfield to Scale AI Infrastructure and Build World's Largest Humanoid Pretraining Dataset

Brookfield将有助于建立世界上最大,最多样化的现实世界类人形生物预处理数据集,并建立关键的AI基础架构来扩展螺旋,这是Figure的专有视觉语言行动模型,并促进在新商业环境中的人形机器人的部署。布鲁克菲尔德(Brookfield)还投资了Figure的C系列筹款活动,作为更广泛的合作伙伴关系的一部分。

tamarack和Foreflight宣布增强的主动翅膀性能数据集成

Tamarack and ForeFlight announce enhanced Active Winglet performance data integration

新闻稿Amarack Aerospace Group是革命性的Active Winglet和Smartwing Technology的开发商,今天宣布了与ForeFlight合作的新阶段,以为Active Winglet配备的Active Winglet飞机提供增强的飞行计划数据。随着全球舰队现在超过200个升级的引用,Tamarack与ForeFlight合作,集成了更高分辨率的性能数据集[…]

新数据集增强了对大气 - 表面相互作用的理解

New dataset enhances understanding of atmosphere–surface interactions

由中国科学院的Hefei物理科学学院陈Cheng教授领导的研究团队已使用中国GF-5(02)卫星的先进极化数据检索了全球气溶胶和表面性能。

电视,在2026年1月推出机器人运动数据集生成服务

Telexistence, Launching a Robotic Motion Dataset Generation Service in January 2026

与电力或电信一样,它将成为一种关键的效用,这是一个稳定而丰富的运动数据供应,这对于推进机器人智能至关重要,从而加快了全球机器人公司和研究机构的增长。

MICE锁定拼图解决在多相机视频数据集中捕获的拼图

Mice lockbox puzzle-solving captured in multi-camera video datasets

近几十年来,使用视频数据集(例如野生动植物摄像机或实验室视频)已成为研究动物行为的最重要工具之一。这些数据集通过捕获可以反复分析的详细和实时数据来帮助研究人员进行行为观察,从而允许对运动,交互和模式,跟踪和行为分类的定量分析。

主要的AI培训数据集包含数百万个个人数据示例

A major AI training data set contains millions of examples of personal data

新的研究发现,可能包含数百万张护照,信用卡,出生证明和包含个人身份信息的文件的图像。在DataComp Commonpool的一小部分中发现了数千个图像 - 包括可识别的面孔,这是一个主要的AI训练集,用于图像生成,从…刮擦 麻省理工学院技术评论的系列方式可帮助您完成工作。西蒙·威利森(Simon Willison)有一个世界末日的计划。这是一个USB棍子,他在它上装了几个他最喜欢的开放式LLMS-由其创作者公开共享的模型,原则上可以下载和运行…

瑞士阿尔卑斯山野生哺乳动物的行为监测数据集

A behaviour monitoring dataset of wild mammals in the Swiss Alps

两只鹿觅食,每种动物都有手动注释。图片来源:A。Mathis(EPFL)。作者:Nik Papageorgiou您是否想知道野生动物在没有人看时的行为如何?了解这些行为对于保护生态系统至关重要,尤其是随着气候变化和人类的扩张改变自然栖息地。但是收集这种信息而不会干扰[…]

AI用大量数据集增压化学

AI Supercharges Chemistry with Massive Dataset

它很重要的是:AI用大量的数据集增强化学反应,揭示了ANI-1X如何通过AI转换分子建模。

AI-Ready分子数据集彻底改变了研究

AI-Ready Molecular Dataset Revolutionizes Research

它是什么重要的:AI-Ready分子数据集用120K+量子级轨迹彻底改变了科学中的AI

弥合差距:新数据集将推荐研究推向现实世界规模

Bridging the Gap: New Datasets Push Recommender Research Toward Real-World Scale

在推荐研究中公开可用的数据集当前塑造了该领域。