AgiBot launches ‘by far the largest dataset’ for humanoid robots
专注于开发人形机器人的机器人初创公司 AgiBot 推出了它所称的“迄今为止最大的人形机器人操作数据集”。AgiBot 称,这个名为“AgiBot World”的数据集是第一个专门为推进多用途机器人政策而设计的大型机器人学习数据集。这个综合生态系统不仅包括 [...]
这个综合生态系统不仅包括数据集,还包括基础模型、标准化基准和旨在实现高质量机器人数据民主化的协作框架。
Frankenstein Datasets and the Crisis in Climate Science Integrity
弗兰肯斯坦数据集清楚地提醒我们,在科学中不加批判地接受是危险的。虽然将数据与方便的叙述相匹配的诱惑很强烈,但真正的科学进步需要抵制这种冲动。正如皮尔克的批评所表明的那样,只有直面和纠正错误,科学才能履行其自我纠正的承诺。让这成为气候科学的警钟:诚信必须先于意识形态。
WATCH: UCLA politics professors use data sets to explain historic shift in voting patterns
加州大学洛杉矶分校的两位教授解释了过去几个政治周期的数据如何使他们得出结论,即投票模式发生了重大变化。
An introduction to preparing your own dataset for LLM training
在这篇博文中,我们介绍了如何为 LLM 训练准备自己的数据集。无论您的目标是针对特定任务微调预训练模型,还是继续针对特定领域的应用程序进行预训练,拥有精心策划的数据集对于实现最佳性能都至关重要。
CData recognized in the 2024 Gartner® Magic Quadrant™ for Data Integration Tools
获取完整的 2024 年 Gartner 魔力象限数据集成报告。
Harvard Launches Free AI Dataset with OpenAI
为何重要:哈佛大学与 OpenAI 合作推出免费人工智能数据集,其中包容性和协作为更智能、更公平的未来铺平了道路。
MIT creates massive 3D car design dataset to build the vehicles of the future
设计汽车是一个漫长而昂贵的过程。汽车制造商花费数年时间测试和调整汽车设计,尤其是为了改善空气动力学,这会影响燃油效率和电动汽车 (EV) 的续航里程。然而,这些测试通常是私密的,而且整个行业的突破进展缓慢。麻省理工学院的工程师们已经找到了一种使用 […]麻省理工学院创建大量 3D 汽车设计数据集来打造未来汽车的文章首先出现在 Knowridge 科学报告上。
The Forgotten Layers: How Hidden AI Biases Are Lurking in Dataset Annotation Practices
AI 系统依赖于大量精心策划的数据集进行训练和优化。AI 模型的有效性与其训练数据的质量、代表性和完整性密切相关。然而,有一个经常被低估的因素对 AI 结果有深远的影响:数据集注释。如果注释实践不一致或有偏见,则可能会注入 […] 文章《被遗忘的层次:隐藏的 AI 偏见如何潜伏在数据集注释实践中》首先出现在 Unite.AI 上。
Tips for Handling Large Datasets in Python
处理大型数据集很常见,但也很有挑战性。以下是一些让使用 Python 处理如此大型数据集更简单的技巧。
One Million Bluesky Posts Dataset Released
为什么重要:探索一百万个 Bluesky 帖子数据集对人工智能、分散平台和道德的变革性影响。
Publication: Introducing the wiiw COMECON Dataset
本文介绍了社会主义保加利亚、捷克斯洛伐克的经济时间序列历史数据集……
How AI learns: datasets and data processing
为什么重要:AI 如何通过数据集和数据处理进行学习:探索 AI 的数据类型、方法和未来趋势。
Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……
Award-winning dataset aids in earthquake liquefaction research
没有人确切知道地震会在何时何地发生。但计算机模拟正在帮助科学家和工程师提高对液化现象的预测——液化现象是一种有时致命的地震效应,土壤失去硬度,从而导致建筑物倒塌等。
Why ETL-Zero? Understanding the shift in Data Integration as a Beginner
当我准备 Salesforce Data Cloud 认证时,我遇到了 Zero-ETL 这个术语。继续阅读 Towards Data Science »
XPONENTIAL 2024: Integrating Wind and Weather Hazard Data into Airspace Management and UTM Systems
在 XPONENTIAL 2024 上,Vigilant Aerospace Systems 首席执行官兼联合创始人 Kraettli Epperson 发表了关于将天气和风灾害数据集成到空域管理系统中以实现更安全的无人机和无人驾驶航空系统 (UAS) 操作的演讲。主要产品 FlightHorizon 利用基于 NASA 技术的检测和规避 (DAA) 功能,实现实时跟踪和管理 […]XPONENTIAL 2024:将风和天气灾害数据集成到空域管理和 UTM 系统中的文章首次出现在 Vigilant Aerospace Systems, Inc. 上。