Final enrollment data for Class of 2028 reported in Common Data Set
该班是去年美国最高法院关于大学录取的裁决下第一批被录取的学生。斯坦福大学将继续并扩大外展活动,以支持广义的多样性。
Generating a biomedical knowledge graph question answering dataset
作者:Xi Yan 生物医学领域是一个复杂的相互关联的知识网络,涵盖遗传学、疾病、药物和生物过程。虽然知识图谱 (KG) 擅长组织和链接这些信息,但它们的复杂性往往使用户难以查询。理想情况下,用户应该能够用自然语言提问并获得准确的答案 [...]
东京大学研究人员领导的团队创建了整个大气的数据集,使人们能够对以前难以研究的区域进行新的研究。该研究成果发表在《地球与行星科学进展》上。
Golden Datasets: The Foundation of Reliable AI Systems
AI 中的黄金数据集是指您可以用来训练 AI 系统的最纯净、质量最高的数据集。作为最高标准的数据集,黄金数据集通常被称为“地面实况数据集”,并为 AI 系统提供基准。“黄金数据集”一词之所以流行 […]
AgiBot launches ‘by far the largest dataset’ for humanoid robots
专注于开发人形机器人的机器人初创公司 AgiBot 推出了它所称的“迄今为止最大的人形机器人操作数据集”。AgiBot 称,这个名为“AgiBot World”的数据集是第一个专门为推进多用途机器人政策而设计的大型机器人学习数据集。这个综合生态系统不仅包括 [...]
这个综合生态系统不仅包括数据集,还包括基础模型、标准化基准和旨在实现高质量机器人数据民主化的协作框架。
Frankenstein Datasets and the Crisis in Climate Science Integrity
弗兰肯斯坦数据集清楚地提醒我们,在科学中不加批判地接受是危险的。虽然将数据与方便的叙述相匹配的诱惑很强烈,但真正的科学进步需要抵制这种冲动。正如皮尔克的批评所表明的那样,只有直面和纠正错误,科学才能履行其自我纠正的承诺。让这成为气候科学的警钟:诚信必须先于意识形态。
WATCH: UCLA politics professors use data sets to explain historic shift in voting patterns
加州大学洛杉矶分校的两位教授解释了过去几个政治周期的数据如何使他们得出结论,即投票模式发生了重大变化。
An introduction to preparing your own dataset for LLM training
在这篇博文中,我们介绍了如何为 LLM 训练准备自己的数据集。无论您的目标是针对特定任务微调预训练模型,还是继续针对特定领域的应用程序进行预训练,拥有精心策划的数据集对于实现最佳性能都至关重要。
CData recognized in the 2024 Gartner® Magic Quadrant™ for Data Integration Tools
获取完整的 2024 年 Gartner 魔力象限数据集成报告。
Harvard Launches Free AI Dataset with OpenAI
为何重要:哈佛大学与 OpenAI 合作推出免费人工智能数据集,其中包容性和协作为更智能、更公平的未来铺平了道路。
MIT creates massive 3D car design dataset to build the vehicles of the future
设计汽车是一个漫长而昂贵的过程。汽车制造商花费数年时间测试和调整汽车设计,尤其是为了改善空气动力学,这会影响燃油效率和电动汽车 (EV) 的续航里程。然而,这些测试通常是私密的,而且整个行业的突破进展缓慢。麻省理工学院的工程师们已经找到了一种使用 […]麻省理工学院创建大量 3D 汽车设计数据集来打造未来汽车的文章首先出现在 Knowridge 科学报告上。
The Forgotten Layers: How Hidden AI Biases Are Lurking in Dataset Annotation Practices
AI 系统依赖于大量精心策划的数据集进行训练和优化。AI 模型的有效性与其训练数据的质量、代表性和完整性密切相关。然而,有一个经常被低估的因素对 AI 结果有深远的影响:数据集注释。如果注释实践不一致或有偏见,则可能会注入 […] 文章《被遗忘的层次:隐藏的 AI 偏见如何潜伏在数据集注释实践中》首先出现在 Unite.AI 上。
Tips for Handling Large Datasets in Python
处理大型数据集很常见,但也很有挑战性。以下是一些让使用 Python 处理如此大型数据集更简单的技巧。
One Million Bluesky Posts Dataset Released
为什么重要:探索一百万个 Bluesky 帖子数据集对人工智能、分散平台和道德的变革性影响。
Publication: Introducing the wiiw COMECON Dataset
本文介绍了社会主义保加利亚、捷克斯洛伐克的经济时间序列历史数据集……
How AI learns: datasets and data processing
为什么重要:AI 如何通过数据集和数据处理进行学习:探索 AI 的数据类型、方法和未来趋势。