3 Questions: How to help students recognize potential bias in their AI datasets
开发医疗保健AI模型的课程需要更多地专注于识别和解决偏见。
Chinese researchers release Tianshan watershed streamflow dataset
由中国科学院新疆生态与地理研究所(XIEG)的陈·亚宁(Chen Yaning)教授最近的一项研究发行了蒂安山(Tianshan)流域水流(TSWS)数据集(1901- 2019年)。该数据集编译了56个流域的每日流量数据,以及天山山区89个流域的每月数据。
Чат-бот Grok интегрируют в Telegram
伊隆面具和帕维尔·杜罗夫(Pavel Durov)之间的交易证明了AI在使者和社交网络行业中的增长价值。
Gigamon: 91% компаний жертвуют безопасностью ради внедрения ИИ
指导的70%将公共服务视为混合云环境中最风险的组成部分,并希望将其数据归还给私有云。
Large Language Models Are Memorizing the Datasets Meant to Test Them
,如果您依靠AI推荐观看,阅读或购买的内容,那么新的研究表明,这些系统可能是从记忆中基于记忆而不是技巧的结果:而不是学习提出有用的建议,而是回想起用于评估它们的数据集中的项目,导致高估的性能和建议的大型语言模型是在大型语言模型中记忆了这些数据集,该数据是记忆自己的第一个符合人数。
'CoVox': A matched vocal dataset for comparing singing and speech styles
人类的声音与指纹一样多样化和个体,可以提供有关情绪,年龄或健康的信息。为了研究声音表演,德国法兰克福大学的Max Planck经验美学研究所(MPIEA)的研究人员创建了一组精选的录音,总共有1,320个语音样本。
诸如Inaturalist之类的公民科学平台的知名度增加,从而推动了生物多样性基础模型的快速发展。但是,此类数据固有地存在偏见,并以机会主义的方式收集,通常偏向某些位置,时间,物种,观察者经验水平和状态。我们的作品,标题为“ Divhift:探索特定于域的分布变化,以志愿者收集的生物多样性[…]
This data set helps researchers spot harmful stereotypes in LLMs
AI模型带有文化特定的偏见。一个名为Shades的新数据集旨在通过发现有害的刻板印象和其他类型的歧视来帮助开发人员解决问题,这些刻板印象和其他各种语言中的AI Chatbot响应中出现。 AI创业公司拥抱面孔的首席道德科学家玛格丽特·米切尔(Margaret Mitchell)领导了…
The Global Macro Database: A new international macroeconomic dataset
由4名经济学家组成的团队 - KarstenMüller,Chenzi Xu,Mohamed Lehbib&Ziliang Chen-已经开发了这个名为Global Macro Database的宏数据库。他们在本文中解释了数据库:全局宏数据库是一个开源的,不断更新的宏观经济统计数据集,可统一和扩展现有资源。通过协调和集成来自32个主要[…]
出生于阿拉巴马州的作者出版了七本书和许多短篇小说。
The Flawed ICAT Hurricane Loss Dataset: A Call for Scientific Integrity in Climate Research
Pielke的研究精心记录了ICAT数据集最初是基于他的团队精心策划的飓风损失数据(Pielke等,2008; Weinkle等人,2018年)如何被公司收购后国际灾难保险经理,LLC(ICAT)更改。
Dataset reveals how Reddit communities are adapting to AI
Jamillah Knowles / Data People /由CC-BY 4.0许可的Grace Stanley研究人员已发布了从300,000多个公共Reddit社区中提取的数据集,以及一份报告详细介绍了Reddit社区如何改变其政策,以解决AI生成内容的激增。团队从[…]
Doerr photo contest illustrates life’s complexity
赢得今年Doerr可持续发展摄影竞赛中的图像传达了我们为可持续性斗争而遇到的危险 - 以及人类为制定变革而努力。
Fake medical datasets created by ChatGPT are pretty hard to spot
意大利语和德国科学家使用ChatGpt创建了假医疗数据集,然后寻找将这些数据集标记为Phoiles的特征。该团队使用Chatgpt-4O来生产12个“未精制”数据集,并根据“未精制”数据创建12个“精制”数据集的Chatgpt版本。未精制的数据集包括103个伪造迹象,包括在患者名称和性别之间的不匹配,周末进行的访问以及年龄计算错误。但是,一旦通过自定义Chatgpt进行了完善这些数据集,这些讲述标志中的范围却少得多,分析时有四个精制数据集显得完全真实。该团队总结说,研究结果表明,使用人工智能来创建研究人员分析时看起来完全真实的假医学数据集是多么容易。
NOAA Datasets Will Soon Disappear
NOAA悄悄地报告说,他们将很快退役与地震,海洋,沿海和河口科学有关的14个数据集,产品和目录。 由美国和印度共同运营的任务将衡量全球土地,冰和生态系统的微小变化。 在金星,火星和木星的月球欧罗巴(Europa)的月球上骨折的地形图像查明了受水影响的环境。 一项新的研究发现,通常在西部边界电流的分离点附近看到的浮游植物盛开,得到了营养供应上升和跨货架运输的支持。 宇宙氯同位素的年代对意大利的断层活性的长期估计,表明地震和静止期在数千年中交替出现。
KiDS dataset doesn't shake up cold dark matter model after all, say researchers
来自4100万个星系的数据毕竟不会动摇标准的宇宙学模型。为此,令他们感到惊讶的是,是一支国际研究人员的团队,包括莱顿天文台教授Koen Kuijken。
New Defense Department experimentation series targets data integration
GIDE X事件旨在解决技术和系统集成问题,以防止操作员利用命令和控制能力升级。