A major AI training data set contains millions of examples of personal data
新的研究发现,可能包含数百万张护照,信用卡,出生证明和包含个人身份信息的文件的图像。在DataComp Commonpool的一小部分中发现了数千个图像 - 包括可识别的面孔,这是一个主要的AI训练集,用于图像生成,从…刮擦 麻省理工学院技术评论的系列方式可帮助您完成工作。西蒙·威利森(Simon Willison)有一个世界末日的计划。这是一个USB棍子,他在它上装了几个他最喜欢的开放式LLMS-由其创作者公开共享的模型,原则上可以下载和运行…
A behaviour monitoring dataset of wild mammals in the Swiss Alps
两只鹿觅食,每种动物都有手动注释。图片来源:A。Mathis(EPFL)。作者:Nik Papageorgiou您是否想知道野生动物在没有人看时的行为如何?了解这些行为对于保护生态系统至关重要,尤其是随着气候变化和人类的扩张改变自然栖息地。但是收集这种信息而不会干扰[…]
AI Supercharges Chemistry with Massive Dataset
它很重要的是:AI用大量的数据集增强化学反应,揭示了ANI-1X如何通过AI转换分子建模。
AI-Ready Molecular Dataset Revolutionizes Research
它是什么重要的:AI-Ready分子数据集用120K+量子级轨迹彻底改变了科学中的AI
3 Questions: How to help students recognize potential bias in their AI datasets
开发医疗保健AI模型的课程需要更多地专注于识别和解决偏见。
Chinese researchers release Tianshan watershed streamflow dataset
由中国科学院新疆生态与地理研究所(XIEG)的陈·亚宁(Chen Yaning)教授最近的一项研究发行了蒂安山(Tianshan)流域水流(TSWS)数据集(1901- 2019年)。该数据集编译了56个流域的每日流量数据,以及天山山区89个流域的每月数据。
Чат-бот Grok интегрируют в Telegram
伊隆面具和帕维尔·杜罗夫(Pavel Durov)之间的交易证明了AI在使者和社交网络行业中的增长价值。
Gigamon: 91% компаний жертвуют безопасностью ради внедрения ИИ
指导的70%将公共服务视为混合云环境中最风险的组成部分,并希望将其数据归还给私有云。
Large Language Models Are Memorizing the Datasets Meant to Test Them
,如果您依靠AI推荐观看,阅读或购买的内容,那么新的研究表明,这些系统可能是从记忆中基于记忆而不是技巧的结果:而不是学习提出有用的建议,而是回想起用于评估它们的数据集中的项目,导致高估的性能和建议的大型语言模型是在大型语言模型中记忆了这些数据集,该数据是记忆自己的第一个符合人数。
'CoVox': A matched vocal dataset for comparing singing and speech styles
人类的声音与指纹一样多样化和个体,可以提供有关情绪,年龄或健康的信息。为了研究声音表演,德国法兰克福大学的Max Planck经验美学研究所(MPIEA)的研究人员创建了一组精选的录音,总共有1,320个语音样本。
诸如Inaturalist之类的公民科学平台的知名度增加,从而推动了生物多样性基础模型的快速发展。但是,此类数据固有地存在偏见,并以机会主义的方式收集,通常偏向某些位置,时间,物种,观察者经验水平和状态。我们的作品,标题为“ Divhift:探索特定于域的分布变化,以志愿者收集的生物多样性[…]
This data set helps researchers spot harmful stereotypes in LLMs
AI模型带有文化特定的偏见。一个名为Shades的新数据集旨在通过发现有害的刻板印象和其他类型的歧视来帮助开发人员解决问题,这些刻板印象和其他各种语言中的AI Chatbot响应中出现。 AI创业公司拥抱面孔的首席道德科学家玛格丽特·米切尔(Margaret Mitchell)领导了…
The Global Macro Database: A new international macroeconomic dataset
由4名经济学家组成的团队 - KarstenMüller,Chenzi Xu,Mohamed Lehbib&Ziliang Chen-已经开发了这个名为Global Macro Database的宏数据库。他们在本文中解释了数据库:全局宏数据库是一个开源的,不断更新的宏观经济统计数据集,可统一和扩展现有资源。通过协调和集成来自32个主要[…]
出生于阿拉巴马州的作者出版了七本书和许多短篇小说。
The Flawed ICAT Hurricane Loss Dataset: A Call for Scientific Integrity in Climate Research
Pielke的研究精心记录了ICAT数据集最初是基于他的团队精心策划的飓风损失数据(Pielke等,2008; Weinkle等人,2018年)如何被公司收购后国际灾难保险经理,LLC(ICAT)更改。
Dataset reveals how Reddit communities are adapting to AI
Jamillah Knowles / Data People /由CC-BY 4.0许可的Grace Stanley研究人员已发布了从300,000多个公共Reddit社区中提取的数据集,以及一份报告详细介绍了Reddit社区如何改变其政策,以解决AI生成内容的激增。团队从[…]
Doerr photo contest illustrates life’s complexity
赢得今年Doerr可持续发展摄影竞赛中的图像传达了我们为可持续性斗争而遇到的危险 - 以及人类为制定变革而努力。