数据集领域信息情报检索---XiaoMi-AI

2026年7月7日 17:07

Amazon Quick Sight 多数据集关系的数据建模最佳实践

Data modeling best practices for Amazon Quick Sight multi-dataset relationships

今天，我们很高兴地宣布 Amazon Quick Sight 中的多数据集关系。这项新功能允许您定义 Quick Sight 数据集之间的逻辑关系并在查询时执行运行时联接。您无需提前展平表，而是将每个表保留为其自己的 Quick Sight 数据集，并在 Quick Sight 主题内声明这些数据集如何相互关联。

亚马逊云科技 _机器学习

2026年7月7日 17:07

Amazon Quick Chat 的多数据集主题最佳实践

Multi-dataset Topic best practices for Amazon Quick Chat

本文适用于为基于自然语言聊天的探索构建或优化 Quick Sight 主题的数据架构师、商业智能 (BI) 工程师和分析工程师。

亚马逊云科技 _机器学习

2026年7月7日 17:07

通过业务上下文丰富您的数据集：从旧主题迁移到 Amazon Quick 中的语义数据集

Enrich your datasets with business context: Migrating from legacy Topics to semantic datasets in Amazon Quick

在这篇文章中，我们将介绍什么是数据集丰富、它与旧主题有何不同，并提供三种迁移场景和分步指导，以便您可以放心地将业务上下文迁移到数据集层。

亚马逊云科技 _机器学习

2026年7月7日 17:07

Amazon Quick Sight 多数据集关系的数据建模模式

Data modeling patterns for Amazon Quick Sight multi-dataset relationships

在这篇文章中，我们从概念转向模式。对于每个模式，您将找到表结构、用例、实施步骤和示例 SQL 查询。我们还介绍了需要额外建模步骤的高级场景的解决方法，并总结了当前的限制。

与此有关的是什么

2026年7月3日 21:00

欧洲“气候损害加剧”的叙述陷入了一个不方便的数据集

Europe’s “Soaring Climate Damage” Narrative Runs Into an Inconvenient Dataset

这正是标准化存在的原因。它将天气变化与社会变化区分开来。后欧洲的“气候损害飙升”叙事陷入了一个不方便的数据集，首先出现在 Watts Up With That? 上。

ΑΙhub

2026年7月1日 14:53

科学家开发出新方法来生成用于训练人工智能的蛋白质数据集

Scientists develop new method to generate protein datasets for training AI

生成蛋白质活性数据（上）、读取输出和训练 AI 模型（下）的过程。图片来源：Linqi Cheng/莱斯大学。作者：Rachel Leeson 蛋白质工程是人工智能研究的一个领域。每种蛋白质均由氨基酸组成；为了优化蛋白质功能，研究人员通过切换 [...] 之一来修改蛋白质

华盛顿大学

2026年6月24日 18:04

长达数十年的数据集显示哪些逆戟鲸在普吉特湾最自在

Decades-long dataset shows which orcas are most at home in Puget Sound

比格虎鲸在普吉特海湾的数量正在增加，而看到南部居民的机会仍然很小，而且是特定群体的。

走向数据科学

2026年7月21日 15:00

我尝试在 Colab 上微调机器人 AI 模型。这是有效的

I Tried Fine-Tuning a Robot AI Model on Colab. Here Is What Worked

针对 OpenVLA 的可重复 100 步 LoRA 微调运行，包括数据集检查、Colab 设置、训练指标和 W&B 证据。我在 Colab 上尝试微调机器人 AI 模型的帖子。这是有效的方法首先出现在《走向数据科学》上。

La Biblia de la IA

2026年7月17日 22:45

极其简单的图启发式揭示了顺序推荐的捷径可解决基准

An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation

顺序推荐是推荐系统的核心任务，最近的研究越来越多地转向利用顺序模式和语义项目信息的生成推荐器。然而，这些方法通常是在一小组广泛使用的基准上进行评估的。这就提出了一个自然的问题：这些基准测试实际上需要现代生成推荐器的高级建模功能吗？我们使用有意简单的图启发式进行基准审核：仅从最后一个或两个交互的项目开始，它从几跳项目转换图中检索候选者，并根据项目特征相似性对它们进行排名。令人惊讶的是，尽管它很简单，但这种启发式方法在各种流行的顺序推荐基准上匹配或优于一组广泛的现代基线。例如，与广泛使用的 Amazon Review Sports 和 CD 数据集上的最佳竞争基线相比，它的 NDCG@10 相对改

大数据分析新闻

2026年7月16日 07:40

构建人工智能就绪数据战略：每个企业在扩展人工智能之前应该做好哪些准备

Building an AI-Ready Data Strategy: What Every Enterprise Should Get Right Before Scaling Artificial Intelligence

企业人工智能计划很少会因为团队缺乏强大的模型而停滞不前。故障通常出现在模型层以下，其中分散的记录、不兼容的定义、延迟的管道、薄弱的访问控制和不明确的所有权阻碍了实验系统跨业务功能可靠地运行。试点环境可以掩盖这些弱点。有限的数据集...阅读更多»《构建人工智能就绪数据战略：每个企业在扩展人工智能之前应该做什么》一文首先出现在《大数据分析新闻》上。

Novataxa | 物种新发现

2026年7月15日 14:41

[爬虫学 • 2026] Cyrtopodion arachnoideum, C. cryptum, C. maritimum, C. oculiplenum, ... • Cyrtopodion agamuroides-gastropolis 物种复合体（有鳞目：壁虎科）的伊朗薄趾壁虎的分类多样性以及十个新物种的描述

[Herpetology • 2026] Cyrtopodion arachnoideum, C. cryptum, C. maritimum, C. oculiplenum, ... • Taxonomic Diversity of Iranian Thin-Toed Geckos of the Cyrtopodion agamuroides-gastropholis Species Complex (Squamata: Gekkonidae) with Description of Ten New Species

Cyrtopodion oculiplenum Nazarov、Nabizadeh、Rajabizadeh、Moaddab、Nikolaev、Solovyeva、Melnikov、Ananjeva、Poyarkov 和 Ratsegar-Pouyani，2026 DOI：doi.org/10.30906/1026-2296-2026-33-2-85-168 Researchgate.net/publication/408559918摄影：Roman Nazarov 摘要 Cyrtopodion agamuroides-gastropolisis 物种复合体的薄趾壁虎代表了一个在分类学上具有挑战

Apple机器学习研究

2026年7月6日 00:00

Fortress：通过时态数据增强和特征修剪稳定搜索推荐的案例研究

Fortress: A Case Study in Stabilizing Search Recommendations via Temporal Data Augmentation and Feature Pruning

在搜索和推荐系统中，当某些输入特征导致输出分数波动时，预测模型通常会遭受时间不稳定的影响。这种不稳定性会降低模型的可靠性和用户体验，尤其是在多阶段系统中，其中一致的预测对于下游决策至关重要。我们引入了 Fortress，这是一个通用框架，用于通过识别和修剪随着时间的推移导致预测分数不一致的特征来增强模型的稳定性和准确性。 Fortress 利用历史快照临时分区数据集......

Wonkhe | 高等教育政策、人物与政治

2026年7月6日 01:05

市场可能会按预期运行——这就是问题所在

The market may be working as intended – and that’s the problem

Jim Dickinson 跟踪了 Discover Uni 数据集中三年的课程开设和关闭情况，发现损失集中在开头最少的地方和科目

RoboticsTomorrow News

2026年7月7日 08:53

NVIDIA 和 Hugging Face 为乐机器人打造开放机器人社区带来新模型和框架

NVIDIA and Hugging Face Bring New Models and Frameworks to LeRobot for the Open Robotics Community

新的 LeRobot 集成使开发人员可以开放访问 NVIDIA Isaac GR00T 1.7、Isaac Teleop、数据集和机器人工作流程，而 NVIDIA Cosmos 3 集成计划将前沿世界模型引入开放式机器人开发。

NVIDIA 博客 _机器人技术

2026年7月7日 06:00

NVIDIA 和 Hugging Face 为乐机器人打造开放机器人社区带来新模型和框架

NVIDIA and Hugging Face Bring New Models and Frameworks to LeRobot for the Open Robotics Community

开源 AI 展示了当模型、数据和工具共享时，开发人员可以多么快速地进行创新。机器人技术也有同样的机会，但物理人工智能开发的进步仍然受到昂贵且分散的资源的限制，从大型数据集和机器人基础模型到模拟、计算和验证工具。 NVIDIA 和 Hugging Face 是 [...]

Arácnido

2026年7月5日 04:41

对裂殖纲蜘蛛 Rowlandius potiguar Santos、Ferreira 和 Buzzato 进行全基因组测序，2013 年来自巴西半干旱地区的洞穴

Whole-Genome sequencing of the schizomid arachnid Rowlandius potiguar Santos, Ferreira and Buzzato, 2013 from the caves of the Brazilian semiarid

图片来源：CC BY 2.5，https://commons.wikimedia.org/w/index.php?curid=40194191对裂殖纲蜘蛛 Rowlandius potiguar Santos、Ferreira 和 Buzzato 进行全基因组测序，2013 年来自巴西半干旱抽象短尾鞭蝎（蜘蛛纲：尽管裂殖纲蜘蛛纲动物与地下环境具有生态和进化相关性，但它们是一个研究很少的蜘蛛纲动物，特别是在基因组资源方面。在这项研究中，我们提出了 Rowlandius potiguar 的第一个基因组组装草案，这是巴西东北部喀斯特系统特有的与洞穴相关的物种。使用 Illumina 双端技术 (2

Apple机器学习研究

2026年7月2日 00:00

共形思维：计算预算推理的风险控制

Conformal Thinking: Risk Control for Reasoning on a Compute Budget

推理大型语言模型 (LLM) 可实现测试时间扩展，随着令牌预算的增加，数据集级别的准确性也会提高，从而激励自适应推理——在可靠性提高时使用令牌，并在额外计算不太可能有帮助时提前停止。然而，设置代币预算以及自适应推理的阈值是一项实际挑战，需要进行基本的风险与准确性权衡。我们将预算设置问题重新定义为风险控制，限制错误率，同时最大限度地减少计算量。我们的框架引入了一个上限，可以阻止......

Arácnido

2026年7月2日 23:19

A New Chapter for the International Tarantula Occurrence Database (ITOD)

国际狼蛛发生数据库 (ITOD) 的新篇章社区科学改变了我们对生物多样性的理解，但其最大的优势之一不仅在于观测数据的积累，还在于系统分析这些观测数据的能力。今天，我很高兴地宣布国际狼蛛发生数据库 (ITOD) 的下一阶段：对项目中所代表的每个公认的狼蛛属进行全面的逐属统计分析。该计划不仅仅将 ITOD 视为照片和地点记录的存储库，而是旨在将其发展成为能够支持生态、分类学、生物地理学和保护研究的全球科学数据集。在接下来的几个月中，每个狼蛛属都将接受标准化评估使用一致的分析框架。对于每个属，将编制有关观察数量、物种代表性、地理覆盖范围、观察者参与、研究级百分比、海拔分布、栖息地关联、物候、性别比例

数据集关键词检索结果