Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......
PrimeX: A Dataset of Worldview, Opinion, and Explanation
随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……
Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
How I Built a Data Cleaning Pipeline Using One Messy DoorDash Dataset
清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。
CMS’s statement about data withholding
Aaron Albright,Medicare和Medicaid Services中心的媒体关系小组主任Aaron Albright给我写信,CMS致力于支持CMS数据的研究使用,同时确保对患者的信息得到适当保护。目前,公众和研究人员可以使用来自有限数据集文件或我们的公共用途文件的酒精或药物滥用治疗信息[…] CMS关于数据扣留的帖子首次出现在附带经济学家上。
NIST Releases Test Tools to Accelerate Adoption of Emerging Route Leak Mitigation Standards
NIST 发布了 NIST BGP RPKI IO (BRIO) - 一种开源测试工具和数据集,可促进利用资源公钥的新兴边界网关协议 (BGP) 安全性和弹性机制的测试和实验
Princeton senior Isam Mina awarded Rhodes Scholarship for Jordan
Mina 是分子生物学专业的学生,计划成为一名肿瘤学家。在他的高级论文中,他正在使用机器学习来分析大型全球临床数据集,以探索肠道微生物组在结直肠癌中的作用。
Embedding Atlas: Low-Friction, Interactive Embedding Visualization
嵌入投影通常用于可视化大型数据集和模型。然而,人们在使用嵌入可视化工具时经常遇到“摩擦”:(1)采用障碍,例如繁琐的数据整理和加载、可扩展性限制、无法将结果集成到现有工作流程中,以及(2)可能的分析限制,无法与外部工具集成以额外显示元数据的协调视图。在本文中,我们介绍了 Embedding Atlas,这是一种可扩展的交互式可视化工具,旨在尽可能轻松地与大型嵌入进行交互......
RTX’s Collins Aerospace upgrades FlightAware AeroAPI with expanded access to historical flight data
新闻稿 ollins Aerospace 扩展了其 FlightAware AeroAPI 解决方案的功能,为任何感兴趣的机场、运营商或城市提供易于访问、全面的飞行历史记录。 FlightAware 的 AeroAPI 解决方案是一种先进的应用程序编程接口 (API),允许运营商、飞行部门、技术提供商等访问深层数据集,从而帮助影响 [...]
Nebius AI Studio 刚刚推出了一款专为大联盟打造的全新文本到图像平台,承诺实现闪电般的快速渲染和令人惊叹的清晰度。想想 2000×2000 像素精度、企业级可扩展性以及如此之低的价格,感觉就像是一个恶作剧。根据 Trend Hunter 的说法,这是关于使创造力民主化——一次调用一个 API。但真正令人着迷的是 Nebius 不仅仅追逐漂亮的图片,它还向整个行业示好。从营销团队连夜制作品牌内容到研究人员生成合成数据集,这一举措可以使企业人工智能工具比以往任何时候都更容易使用。我尝试想象这如何适应更广泛的[...]
Europe Rations Air Conditioning But The US Has Made A Map To Help People Optimize It
美国的人均能源使用量比二战时期甚至一战时期都要少。多亏了天然气,我们才能以可承受的成本为大多数州提供能源。(1) 借助显示空调使用地点的新数据集,可以更轻松地了解哪些地方可以改进。在法国,您必须获得政府和邻居的许可才能安装空调。你也会想变得富有,因为把它卖给欧洲其他国家比卖给国内更有利可图。(2) 美国拥有更多的股权,大约 90% 的人拥有空调,但新的 AC 地图显示,并非所有空调都是最优的。例如,在潮湿地区的便携式设备就不是很有效。阅读更多
[Paleontology • 2025] Nanotyrannus and Tyrannosaurus coexisted at the close of the Cretaceous
《Zanno et Napoli》中的小暴龙,2025 年。DOI:doi.org/10.1038/s41586-025-09801-6 艺术品:Anthony Hutchings x.com/JGN_PaleoTyrannosaurus rex 属于研究最全面的灭绝脊椎动物1,也是恐龙古生物学的模型系统。作为最后幸存的非鸟类恐龙之一,霸王龙是评估白垩纪末大灭绝(地球上最严重的生物灾难之一)之前的陆地生物多样性、生态系统结构和生物地理交换的重要数据。霸王龙的古生物学研究,包括个体发育生态位划分、进食、运动生物力学和生活史,都利用了包含多个假设生长阶段的不断扩大的骨骼样本,但霸王龙的下位体仍然存
SAS Exploration and Production Optimization Analytics for the Oil and Gas Industry
数据集成、风险评估和不确定性量化是石油勘探和开发的关键问题。石油公司被迫在地质更加复杂和偏远的地区进行勘探,以开采更深的碳氢化合物矿藏。由于数据质量本质上较差的领域中的问题变得过于复杂,并且与不良预测(干洞)相关的成本增加,因此适当整合学科、数据融合、降低风险和不确定性管理的需求变得非常重要。 SAS Analytics 提供与风险和不确定性相关的问题的潜在答案,并认可储量信息并确保根据预定义的目标遵守开采计划。借助 SAS Analytics,您可以使用大量上游数据来制定影响储量开采的有效、高效和及时的决策。
Some useful tools for monitoring the evolution and behaviour of Hurricane Melissa
各种在线数据集将有助于详细了解飓风梅丽莎影响牙买加和古巴的飓风梅丽莎现在正成为世界各地的头条新闻,预计今天将登陆。与热带气旋一样,情况随着风暴的发展而不断变化。他们的行为非常复杂。我以为我会 [...]
实体链接 (EL) 传统上依赖于大型注释数据集和广泛的模型微调。虽然最近的小样本方法通过提示来利用大型语言模型 (LLM) 来减少训练要求,但由于昂贵的基于 LLM 的推理,它们常常效率低下。 ARTER(自适应路由和目标实体推理)提出了一种结构化管道,通过策略性地结合候选生成、基于上下文的评分、自适应路由和选择性推理,无需深度微调即可实现高性能。 ARTER 计算一小组...
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
The Economic Consequences of War: 115 conflicts and 145 countries over the past 75 years
Efraim Benmelech 和 Joao Monteiro 在这篇 NBER 论文中分析了战争的经济后果:本文使用涵盖过去 75 年 115 个冲突和 145 个国家的新数据集提供了战争宏观经济后果的系统证据。我们记录了三个主要发现。首先,冲突会产生巨大而持久的实际影响:实际 GDP 下降 [...]
西澳大利亚 Aname mellosa 复合体的连帽叉骨蜘蛛的综合分类(Araneae:Mygalomorphae:Anamididae)澳大利亚叉骨蜘蛛属 Aname 可能是世界上最多样化的 mygalomorph 蜘蛛属,估计有 300 种分布在澳大利亚大陆。在这项研究中,我们使用广泛的形态学和分子数据集来修正“mellosa-complex”,这是西澳大利亚物种的一个进化枝,因其独特的形态和特征性的“带帽”洞穴入口而被识别。我们界定了 25 个物种,包括名义物种 A. mellosa Harvey、Framenau、Wojcieszek、Rix & Harvey,2012,以及 24 个