Processing Large Datasets with Dask and Scikit-learn
本文揭示了如何利用 Dask 进行可扩展的数据处理,即使在有限的硬件限制下也是如此。本文揭示了如何利用 Dask 进行可扩展的数据处理,即使在有限的硬件限制下也是如此。
Hugging Face AI-modeller och dataset skannas nu automatiskt mot VirusTotal
VirusTotal 和 Hugging Face 建立了合作伙伴关系,通过将 VirusTotal 的安全分析直接集成到 Hugging Face 的平台中来提高人工智能模型和相关文件的安全性。这种合作意义重大,因为 Hugging Face Hub 现在会被持续扫描,以识别超过 220 万个公共模型中潜在的恶意或受损文件 […]Hugging Face AI 模型和数据集现在会自动扫描 VirusTotal 后首次出现在 AI 新闻中。
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......
PrimeX: A Dataset of Worldview, Opinion, and Explanation
随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……
Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
How I Built a Data Cleaning Pipeline Using One Messy DoorDash Dataset
清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。
Scientists Might Soon Predict the Ocean’s Rogue Waves
北海 18 年的数据集表明,异常波浪并非异常事故,而是普通海浪堆积的特殊产物,这一见解可以使预测成为可能
压力之下:利用布坦坦研究所一个世纪的记录绘制具有重要医学意义的 Tityus Koch 1836(Buthidae)蝎在巴西的分布摘要Tityus serrulatus、T. bahiensis、T. obscurus 和 T. stigmurus 被认为是巴西最具医学意义的物种。自 1900 年代初以来,它们的识别和分发一直是布坦坦研究所 (IBSP) 动物学收藏的核心。在本研究中,我们使用自 1905 年以来收集的 IBSP 中的 7241 个仅存在记录来绘制这些物种的分布图。使用 2° 网格单元分析物种丰富度和记录密度,并通过 Jaccard 相似性指数评估空间重叠。根据我们的物种记录数
Stomiiformes phylogenyin Chang, Heiple, Hays, Melendez-Vazquez, Lee, Frable, Pogonoski, Martinez, Betancur-R et Arcila, 2025. DOI: doi.org/10.1186/s12862-025-02453-0 摘要背景:Stomiiformes(深海鱼类的多种目)内的进化关系主导中上层和深中层区域,由于形态学和分子证据相互矛盾,仍然存在争议。这些鱼类由传统上公认的四个科(生殖口科、胸节科、磷鱼科和斯托米科)的 464 个物种组成,表现出显着的适应能力,例如生物发光、超黑色素
Appendix A: Distinctive terms by topic in r/Parenting posts
我们数据集中的所有 29,925 个 Reddit 帖子都按照三个主题的提及进行分类:家庭财务、技术使用和劳动分工。我们使用逐点互信息 (PMI) 指标来识别与提及每个主题的帖子相关的术语。下表列出了每个主题的独特术语。附录 A:r/Parenting 帖子中按主题划分的独特术语首先出现在皮尤研究中心。
SPACE.com Swallows Lies that Climate Change Is Making Wildfires Worse, It Isn’t
基础研究使用精选数据来声称野火正在恶化。对较大数据集(包括基于位置的野火烧毁面积历史测量数据和近几十年来的大型卫星数据集)的审查显示,在过去 130 年中,涵盖前卫星时代(美国见下图 1)和后卫星时代,野火总数和因野火损失的面积都急剧下降。
UPMC and Penguin Ai Team Up to Rethink Healthcare — and Maybe the Whole Data Game
医疗保健刚刚经历了巨大的数字化改造。在一份声明中,UPMC 已与 Penguin Ai 进行前所未有的合作,根据患者医学成像数据集开发专注于医疗保健的人工智能模型。据医疗保健 IT 新闻报道,此次合作将重点围绕 UPMC 的 Ahavi 平台,这是一个加快研究和创新同时保护患者隐私的安全环境。这项工作旨在解决一个长期瓶颈:据 UPMC 的创新负责人称,人工智能公司通常需要等待数月甚至数年的时间才能访问和验证数据。新联盟的目标是将时间缩短到几周,使研究人员和临床医生能够测试[...]
Xsens launches next-generation humanoid robotics motion capture system
Xsens 是 Movella 品牌和惯性运动捕捉技术专家,宣布推出下一代 Xsens Link 系统以及 Xsens Humanoid,Xsens Humanoid 是一款专门构建的软件套件,用于支持人形机器人训练和控制的超大规模扩展。新的硬件和软件共同将高保真人体运动转化为干净的、适合机器人的运动学,用于数据集创建,[...]
IEEE Transactions on Artificial Intelligence, Volume 6, Issue 11, November 2025
1) 基于 DNN 和 GAN 的鲁棒实时视听语音增强作者:Mandar Gogate、Kia Dashtipour、Amir Hussain 页数:2860 - 28692) 优化神经网络训练:资源节约的马尔可夫链方法作者:Ke Wang、Xianting Huang、Cong Tan、Siu-Ming Yiu、Zicong Chen、雷小林页数:2870 - 28833) LibriSQA:大型语言模型口语问答的新颖数据集和框架作者:赵子涵、江一阳、刘鹤阳、王宇、王彦峰页数:2884 - 28954) 从常规到反思:高效通信联邦学习中的修剪神经网络作者:裴家明、魏Li, Shahid Mu
Industrial Policy Since the Great Financial Crisis
国际货币基金组织经济学家的大型团队跟踪自 2008 年金融危机以来的产业政策:本文通过采用大型语言模型技术来识别政策动机,将新产业政策观察站 (NIPO) 数据集从 2009 年扩展至 2023 年。我们记录了自金融危机以来发达经济体和新兴市场经济体广泛采用的产业政策,[...]
Are the new national accounts guidelines any good? 6. Labour.
本博客是讨论国民账户新准则的系列文章的一部分。另请参阅此处(引言)、此处(国民账户是政治账户)、此处(评估资源消耗)、此处(家庭)和此处((不那么)非正规经济)。劳工统计数据是关键的宏观经济数据集之一。它们也是 [...]
CMS’s statement about data withholding
Aaron Albright,Medicare和Medicaid Services中心的媒体关系小组主任Aaron Albright给我写信,CMS致力于支持CMS数据的研究使用,同时确保对患者的信息得到适当保护。目前,公众和研究人员可以使用来自有限数据集文件或我们的公共用途文件的酒精或药物滥用治疗信息[…] CMS关于数据扣留的帖子首次出现在附带经济学家上。
NIST Releases Test Tools to Accelerate Adoption of Emerging Route Leak Mitigation Standards
NIST 发布了 NIST BGP RPKI IO (BRIO) - 一种开源测试工具和数据集,可促进利用资源公钥的新兴边界网关协议 (BGP) 安全性和弹性机制的测试和实验