数据集关键词检索结果

使用 Dask 和 Scikit-learn 处理大型数据集

Processing Large Datasets with Dask and Scikit-learn

本文揭示了如何利用 Dask 进行可扩展的数据处理,即使在有限的硬件限制下也是如此。本文揭示了如何利用 Dask 进行可扩展的数据处理,即使在有限的硬件限制下也是如此。

Hugging Face AI 模型和数据集现在会根据 VirusTotal 自动扫描

Hugging Face AI-modeller och dataset skannas nu automatiskt mot VirusTotal

VirusTotal 和 Hugging Face 建立了合作伙伴关系,通过将 VirusTotal 的安全分析直接集成到 Hugging Face 的平台中来提高人工智能模型和相关文件的安全性。这种合作意义重大,因为 Hugging Face Hub 现在会被持续扫描,以识别超过 220 万个公共模型中潜在的恶意或受损文件 […]Hugging Face AI 模型和数据集现在会自动扫描 VirusTotal 后首次出现在 AI 新闻中。

Pico-Banana-400K:用于文本引导图像编辑的大规模数据集

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......

PrimeX:世界观、观点和解释的数据集

PrimeX: A Dataset of Worldview, Opinion, and Explanation

随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……

在固定预算下为法学硕士选择最佳模型大小和数据集大小

Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs

使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。

我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道

How I Built a Data Cleaning Pipeline Using One Messy DoorDash Dataset

清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。

附录 A:r/Parenting 帖子中按主题划分的独特术语

Appendix A: Distinctive terms by topic in r/Parenting posts

我们数据集中的所有 29,925 个 Reddit 帖子都按照三个主题的提及进行分类:家庭财务、技术使用和劳动分工。我们使用逐点互信息 (PMI) 指标来识别与提及每个主题的帖子相关的术语。下表列出了每个主题的独特术语。附录 A:r/Parenting 帖子中按主题划分的独特术语首先出现在皮尤研究中心。

SPACE.com 承认气候变化使野火变得更严重的谎言,但事实并非如此

SPACE.com Swallows Lies that Climate Change Is Making Wildfires Worse, It Isn’t

基础研究使用精选数据来声称野火正在恶化。对较大数据集(包括基于位置的野火烧毁面积历史测量数据和近几十年来的大型卫星数据集)的审查显示,在过去 130 年中,涵盖前卫星时代(美国见下图 1)和后卫星时代,野火总数和因野火损失的面积都急剧下降。

UPMC 和 Penguin Ai 联手重新思考医疗保健——或许还有整个数据游戏

UPMC and Penguin Ai Team Up to Rethink Healthcare — and Maybe the Whole Data Game

医疗保健刚刚经历了巨大的数字化改造。在一份声明中,UPMC 已与 Penguin Ai 进行前所未有的合作,根据患者医学成像数据集开发专注于医疗保健的人工智能模型。据医疗保健 IT 新闻报道,此次合作将重点围绕 UPMC 的 Ahavi 平台,这是一个加快研究和创新同时保护患者隐私的安全环境。这项工作旨在解决一个长期瓶颈:据 UPMC 的创新负责人称,人工智能公司通常需要等待数月甚至数年的时间才能访问和验证数据。新联盟的目标是将时间缩短到几周,使研究人员和临床医生能够测试[...]

Xsens 推出下一代人形机器人动作捕捉系统

Xsens launches next-generation humanoid robotics motion capture system

Xsens 是 Movella 品牌和惯性运动捕捉技术专家,宣布推出下一代 Xsens Link 系统以及 Xsens Humanoid,Xsens Humanoid 是一款专门构建的软件套件,用于支持人形机器人训练和控制的超大规模扩展。新的硬件和软件共同将高保真人体运动转化为干净的、适合机器人的运动学,用于数据集创建,[...]

IEEE 人工智能汇刊,第 6 卷,第 11 期,2025 年 11 月

IEEE Transactions on Artificial Intelligence, Volume 6, Issue 11, November 2025

1) 基于 DNN 和 GAN 的鲁棒实时视听语音增强作者:Mandar Gogate、Kia Dashtipour、Amir Hussain 页数:2860 - 28692) 优化神经网络训练:资源节约的马尔可夫链方法作者:Ke Wang、Xianting Huang、Cong Tan、Siu-Ming Yiu、Zicong Chen、雷小林页数:2870 - 28833) LibriSQA:大型语言模型口语问答的新颖数据集和框架作者:赵子涵、江一阳、刘鹤阳、王宇、王彦峰页数:2884 - 28954) 从常规到反思:高效通信联邦学习中的修剪神经网络作者:裴家明、魏Li, Shahid Mu

金融危机以来的产业政策

Industrial Policy Since the Great Financial Crisis

国际货币基金组织经济学家的大型团队跟踪自 2008 年金融危机以来的产业政策:本文通过采用大型语言模型技术来识别政策动机,将新产业政策观察站 (NIPO) 数据集从 2009 年扩展至 2023 年。我们记录了自金融危机以来发达经济体和新兴市场经济体广泛采用的产业政策,[...]

新的国民账户指南有用吗? 6. 劳工。

Are the new national accounts guidelines any good? 6. Labour.

本博客是讨论国民账户新准则的系列文章的一部分。另请参阅此处(引言)、此处(国民账户是政治账户)、此处(评估资源消耗)、此处(家庭)和此处((不那么)非正规经济)。劳工统计数据是关键的宏观经济数据集之一。它们也是 [...]

CMS关于数据扣留的声明 从医疗保险和医疗补助数据中删除了哪些说明?请参阅此电子表格。 Healthcare Triage:您的手机不会给您癌症 为什么CMS扣留药物使用数据? 医疗保健社交网络 公开资助的计划生育的投资回报 医疗补助的投资回报 当健康覆盖范围扩展意味着更长的等待医生 医疗保健支出的增长很低 最高法院可以保留国王吗?资格。 照顾患者超越医学和办公室就诊 AcademyHealth:受益人从更高的Medicare Advantage付款中受益多少? 有人可以向我解释一下吗? *为什么要阅读Piketty? * 工作场所健康计划不能省钱 我不合理吗? 土耳其不会让你困了。土耳其不会让你困了! Healthcare Triage新闻:糖税和加拿大旅行禁令 通用毒品比赛和定价噩梦 进步主义者可能会担心国王。但是无论如何他们应该担心。 预测:Scotus将为国王原告找到 49经济学学者认为Halbig(和King)是一件大事 自动续订是一个违反解决方案的问题-CTD。 密西西比州ACA抵抗的成本 对牛奶工业复合物的又一次打击 在Google的新收件箱中 JAMA论坛:2014年期中选举:ACA仍然是政治闪点吗? 另外五个大数据报价:野心和挑战

CMS’s statement about data withholding

Aaron Albright,Medicare和Medicaid Services中心的媒体关系小组主任Aaron Albright给我写信,CMS致力于支持CMS数据的研究使用,同时确保对患者的信息得到适当保护。目前,公众和研究人员可以使用来自有限数据集文件或我们的公共用途文件的酒精或药物滥用治疗信息[…] CMS关于数据扣留的帖子首次出现在附带经济学家上。

NIST 发布测试工具以加速采用新兴路由泄漏缓解标准

NIST Releases Test Tools to Accelerate Adoption of Emerging Route Leak Mitigation Standards

NIST 发布了 NIST BGP RPKI IO (BRIO) - 一种开源测试工具和数据集,可促进利用资源公钥的新兴边界网关协议 (BGP) 安全性和弹性机制的测试和实验

普林斯顿大四学生伊萨姆·米娜 (Isam Mina) 荣获约旦罗德奖学金

Princeton senior Isam Mina awarded Rhodes Scholarship for Jordan

Mina 是分子生物学专业的学生,计划成为一名肿瘤学家。在他的高级论文中,他正在使用机器学习来分析大型全球临床数据集,以探索肠道微生物组在结直肠癌中的作用。

嵌入图集:低摩擦、交互式嵌入可视化

Embedding Atlas: Low-Friction, Interactive Embedding Visualization

嵌入投影通常用于可视化大型数据集和模型。然而,人们在使用嵌入可视化工具时经常遇到“摩擦”:(1)采用障碍,例如繁琐的数据整理和加载、可扩展性限制、无法将结果集成到现有工作流程中,以及(2)可能的分析限制,无法与外部工具集成以额外显示元数据的协调视图。在本文中,我们介绍了 Embedding Atlas,这是一种可扩展的交互式可视化工具,旨在尽可能轻松地与大型嵌入进行交互......

RTX 的 Collins Aerospace 升级了 FlightAware AeroAPI,扩展了对历史飞行数据的访问

RTX’s Collins Aerospace upgrades FlightAware AeroAPI with expanded access to historical flight data

新闻稿 ollins Aerospace 扩展了其 FlightAware AeroAPI 解决方案的功能,为任何感兴趣的机场、运营商或城市提供易于访问、全面的飞行历史记录。 FlightAware 的 AeroAPI 解决方案是一种先进的应用程序编程接口 (API),允许运营商、飞行部门、技术提供商等访问深层数据集,从而帮助影响 [...]