Data Leakage in Preprocessing, Explained: A Visual Guide with Code Examples
数据预处理预处理管道泄漏的 10 种隐秘方式在我教授机器学习的经验中,学生经常会遇到同样的问题:“我的模型表现很好——准确率超过 90%!但是当我将其提交给隐藏数据集进行测试时,它现在不那么好了。哪里出了问题?”这种情况几乎总是指向数据泄漏。当测试数据中的信息在数据准备步骤中潜入(或泄漏)到您的训练数据中时,就会发生数据泄漏。这通常发生在常规数据处理任务中,而您没有注意到。当发生这种情况时,模型会从它不应该看到的测试数据中学习,从而使测试结果具有误导性。让我们看看常见的预处理步骤,看看数据泄漏时究竟会发生什么——希望您可以在自己的项目中避免这些“管道问题”。所有视觉效果:作者使用 Canva
AI Takes the Pulse: Revolutionizing Heart Disease Detection in Dogs
剑桥大学的研究人员开发了一种机器学习算法,可以以 90% 的准确率检测狗的心脏杂音,类似于心脏病专家。这项突破性研究提供了一种经济实惠、有效的筛查工具,可以显著改善狗的生活质量,尤其是那些容易患二尖瓣疾病等心脏病的狗。革命性的 [...]
Собаки-онкологи уходят в отставку: создан цифровой аналог обоняния
准确率高达 97%:科学家找到了一种“嗅出”癌症的新方法。
摘要:自动对建成基础设施进行分类是全球规划的需要。然而,单个指标存在弱点,包括与裸地光谱混淆,并且深度学习的计算要求很高。我们提出了一种计算量轻量的方法来对建成基础设施进行分类。我们使用一组光谱指标和一个新颖的红波段纹理层,其全局阈值由 12 个不同站点(每个站点两个季节性变化的图像)确定。使用 Sentinel-2 影像评估了多个光谱指标。我们的纹理指标使用红波段将建成基础设施与光谱相似的裸地分开。我们的评估通过评估 24 张图像中一系列特定于站点的最佳指标阈值的地面真实点来产生全局阈值。这些用于对集合进行分类,然后使用光谱指标、纹理和分层随机抽样指导训练数据选择。训练数据适合随机森林分类器
Dejaview: корейский ИИ научился предсказывать преступления
新技术预测事件的准确率高达 82.8%。
Месяцы вместо минут: геофизики научились предсказывать землетрясения
机器学习算法在三个月内预测灾难的准确率达到 80%。
我上周在 Twitter 上发布的一些有趣的链接(我也在 Mastodon、Threads、Newsmast 和 Bluesky 上发布了这些链接):生成式人工智能如何应用于生物医学研究:https://www.nature.com/articles/d42473-023-00458-1 也许这个工具在检测人工智能生成的写作方面有 99.9% 的准确率,因为它将所有内容归类为人工智能生成的?https://futurism.com/the-byte/openai-software-detects-ai-writing学费飞涨不仅仅是美国的问题。学生因为费用而放弃选修课,从长远来看会付出更大的代
Alzheimer's Blood Test Outperforms Standard Diagnostics in New Study
血液测试准确诊断阿尔茨海默氏症的准确率约为 90%,而专科医生的准确率仅为 73%,初级保健医生的准确率仅为 61%
Rogue Waves: Predicting the Unpredictable With Advanced Neural Networks
一种利用神经网络技术的新工具可以使用来自海洋浮标的数据,提前五分钟预测流氓波,准确率达到 75%……
Keeping an eye (and ear) out for possums
研究人员经常使用录音来监测新西兰的鸟类,但现在,他们首次将这种技术应用于追踪害虫。他们发布了一个经过微调的模型,可以以 98% 的准确率检测长期现场录音中负鼠的存在与否。他们表示,这种方法可能是一种新的经济有效的选择,可以补充目前的负鼠监测工作。
New, free, screening tool aims to catch dementia in the bud
澳大利亚研究人员开发了一种筛查工具,可以识别痴呆症的早期迹象,从而尽早进行治疗干预。研究人员表示,他们的工具是一份人们自己填写的问卷,可以以 99.9% 的准确率检测出中度至重度认知衰退。“这种工具对于检测与神经退行性过程相关的认知衰退特别有用,例如[…]
New AI system successfully identifies Alzheimer’s disease using speech analysis
通过分析语音模式,波士顿大学的研究人员开发了一种人工智能系统,该系统可以以近 80% 的准确率预测轻度认知障碍患者是否会在六年内患上阿尔茨海默病。这项研究发表在《阿尔茨海默病与痴呆症》杂志上,利用人工智能从认知评估中提取有价值的诊断信息,加速阿尔茨海默病的诊断,进而加速治疗。该团队的人工智能模型在预测六年内从轻度认知障碍 (MCI) 发展到阿尔茨海默病方面实现了 78.5% 的准确率和 81.1% 的灵敏度。这超过了其他传统的非侵入性测试。但至关重要的是,该系统依赖于新人工智能系统使用语音分析成功识别阿尔茨海默病的帖子首先出现在 DailyAI 上。
FBSDetector: Purdue's New Tool Finds Fake Cell Towers
普渡大学的研究人员推出了 FBSDetector,这是一种尖端的机器学习工具,可以以超过 90% 的准确率检测假手机信号塔,为对抗蜂窝网络中不断演变的威胁提供了一种新颖、经济高效的解决方案。
Efficient fact-checking in LLMs like ChatGPT with SAFE
Google 的 DeepMind 开发了一种用于大型语言模型中长篇事实性的新方法——搜索增强事实性评估器 (SAFE)。该 AI 事实核查工具表现出令人印象深刻的准确率,优于人类事实核查员。
The Shift from Models to Compound AI Systems
2023 年,AI 凭借大型语言模型 (LLM) 吸引了所有人的注意力,只需提示即可指示该模型执行一般任务,例如翻译或编码。这自然导致人们强烈关注模型作为 AI 应用程序开发的主要要素,每个人都想知道新的 LLM 将带来哪些功能。然而,随着越来越多的开发人员开始使用 LLM 进行构建,我们相信这种关注点正在迅速改变:最先进的 AI 结果越来越多地由具有多个组件的复合系统获得,而不仅仅是单片模型。例如,Google 的 AlphaCode 2 通过精心设计的系统在编程中设置了最先进的结果,该系统使用 LLM 为任务生成多达 100 万种可能的解决方案,然后筛选该集合。同样,AlphaGeomet
Британские ученые представили робота читающего шрифт Брайля быстрее человека
剑桥大学的一个研究团队使用机器学习算法来训练机器人传感器以每分钟 315 个单词的速度阅读盲文,准确率接近 90%。
美国政府问责局的发现退伍军人上诉委员会 (Board) 有一个质量保证 (QA) 流程和相关的决策准确性衡量标准。具体来说,其 QA 流程包括:1) 每月通过案件审查流程检查随机抽样的决策草案是否存在委员会定义的某些类型的错误;2) 监控进一步上诉至美国退伍军人索赔上诉法院 (CAVC) 的委员会决策结果。委员会利用这些活动的结果提供各种干预措施,例如向退伍军人法官 (VLJ) 提供个人反馈或培训。委员会还计算并发布代表无错误裁决的准确率。但是,美国政府问责局发现委员会计算此指标的过程存在不足。与联邦内部控制标准相反,GAO 发现委员会没有:(1) 制定计算其准确率或管理案例审查错误数据的书面