Hurricane Ian dataset reveals link between first-floor elevation and flood damage
进入房屋的第一步非常重要。在评估飓风造成的洪水风险时,一楼标高可能是一个关键因素。美国联邦紧急事务管理局 (FEMA) 等机构在其损害建模 Hazus 项目中依赖诸如一楼标高等数据。
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......
PrimeX: A Dataset of Worldview, Opinion, and Explanation
随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……
Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
How I Built a Data Cleaning Pipeline Using One Messy DoorDash Dataset
清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。
Building Safer Roads with AI: The Emergency Vehicle Dataset
用于开发自动驾驶汽车系统的大多数训练数据集往往侧重于日常物体,例如普通汽车、步行的人和自行车。然而,这种常见的方法往往会忽略重要但不常见的车辆,例如救护车和警车。新发布的计算机生成数据集,名为 EMS3D-KITTI,旨在缩小这一差距。 [...]
Decoding Nonlinear Signals in Large Observational Datasets
介于两者之间的雨水,雪或某些东西?在大型观察数据集中解码非线性信号的帖子首先出现在数据科学上。
Ishida Ryo(财政部) / Oguro Kazumasa(Rieti咨询研究员) / Yasuoka Masaya(Kwansei Gakuin University)< / div>
Brookfield将有助于建立世界上最大,最多样化的现实世界类人形生物预处理数据集,并建立关键的AI基础架构来扩展螺旋,这是Figure的专有视觉语言行动模型,并促进在新商业环境中的人形机器人的部署。布鲁克菲尔德(Brookfield)还投资了Figure的C系列筹款活动,作为更广泛的合作伙伴关系的一部分。
Tamarack and ForeFlight announce enhanced Active Winglet performance data integration
新闻稿Amarack Aerospace Group是革命性的Active Winglet和Smartwing Technology的开发商,今天宣布了与ForeFlight合作的新阶段,以为Active Winglet配备的Active Winglet飞机提供增强的飞行计划数据。随着全球舰队现在超过200个升级的引用,Tamarack与ForeFlight合作,集成了更高分辨率的性能数据集[…]
New dataset enhances understanding of atmosphere–surface interactions
由中国科学院的Hefei物理科学学院陈Cheng教授领导的研究团队已使用中国GF-5(02)卫星的先进极化数据检索了全球气溶胶和表面性能。
Telexistence, Launching a Robotic Motion Dataset Generation Service in January 2026
与电力或电信一样,它将成为一种关键的效用,这是一个稳定而丰富的运动数据供应,这对于推进机器人智能至关重要,从而加快了全球机器人公司和研究机构的增长。
Mice lockbox puzzle-solving captured in multi-camera video datasets
近几十年来,使用视频数据集(例如野生动植物摄像机或实验室视频)已成为研究动物行为的最重要工具之一。这些数据集通过捕获可以反复分析的详细和实时数据来帮助研究人员进行行为观察,从而允许对运动,交互和模式,跟踪和行为分类的定量分析。
A major AI training data set contains millions of examples of personal data
新的研究发现,可能包含数百万张护照,信用卡,出生证明和包含个人身份信息的文件的图像。在DataComp Commonpool的一小部分中发现了数千个图像 - 包括可识别的面孔,这是一个主要的AI训练集,用于图像生成,从…刮擦 麻省理工学院技术评论的系列方式可帮助您完成工作。西蒙·威利森(Simon Willison)有一个世界末日的计划。这是一个USB棍子,他在它上装了几个他最喜欢的开放式LLMS-由其创作者公开共享的模型,原则上可以下载和运行…
A behaviour monitoring dataset of wild mammals in the Swiss Alps
两只鹿觅食,每种动物都有手动注释。图片来源:A。Mathis(EPFL)。作者:Nik Papageorgiou您是否想知道野生动物在没有人看时的行为如何?了解这些行为对于保护生态系统至关重要,尤其是随着气候变化和人类的扩张改变自然栖息地。但是收集这种信息而不会干扰[…]
AI Supercharges Chemistry with Massive Dataset
它很重要的是:AI用大量的数据集增强化学反应,揭示了ANI-1X如何通过AI转换分子建模。
AI-Ready Molecular Dataset Revolutionizes Research
它是什么重要的:AI-Ready分子数据集用120K+量子级轨迹彻底改变了科学中的AI