10 Python One-Liners for Scikit-learn
停止编写额外的代码 - 这10个单线将负责80%的Scikit-Learn任务!
Understanding Random Forest using Python (scikit-learn)
随机森林是一种强大的机器学习算法,可用于分类和回归,是可解释的,并且不需要功能缩放。以下是如何应用它的方法。在使用Python(Scikit-Learn)了解随机森林的帖子首先出现在数据科学方面。
How to Set Up Your First Machine Learning Pipeline Using Scikit-Learn
让您的 ML 工作流程井然有序!管道就像一个您不必跟踪的清单——Scikit-Learn 会为您处理一切。
Build a Data Science App with Python in 10 Easy Steps
一步一步了解如何使用 Scikit-Learn 和 FastAPI 使用 Python 构建数据科学应用程序。
Data Leakage in Preprocessing, Explained: A Visual Guide with Code Examples
数据预处理预处理管道泄漏的 10 种隐秘方式在我教授机器学习的经验中,学生经常会遇到同样的问题:“我的模型表现很好——准确率超过 90%!但是当我将其提交给隐藏数据集进行测试时,它现在不那么好了。哪里出了问题?”这种情况几乎总是指向数据泄漏。当测试数据中的信息在数据准备步骤中潜入(或泄漏)到您的训练数据中时,就会发生数据泄漏。这通常发生在常规数据处理任务中,而您没有注意到。当发生这种情况时,模型会从它不应该看到的测试数据中学习,从而使测试结果具有误导性。让我们看看常见的预处理步骤,看看数据泄漏时究竟会发生什么——希望您可以在自己的项目中避免这些“管道问题”。所有视觉效果:作者使用 Canva
The Essential Guide to Effectively Summarizing Massive Documents, Part 1
文档摘要对于 GenAI 用例很重要,但如果文档太大怎么办!?继续阅读以了解我是如何解决这个问题的。“总结大量文本”——使用 GPT-4o 生成的图像文档摘要如今已成为使用现代生成式人工智能 (GenAI) 技术解决的最常见问题陈述之一(如果不是最常见问题)。检索增强生成 (RAG) 是一种用于解决该问题的常见但有效的解决方案架构。但是,如果文档本身太大以至于无法在单个 API 请求中作为一个整体发送怎么办?或者,如果它产生太多块而导致臭名昭著的“迷失在中间”上下文问题怎么办?在本文中,我将讨论我们在处理此类问题陈述时面临的挑战,并逐步介绍我使用 Greg Kamradt 在其 GitHub
在计算化学中,分子通常表示为分子图,必须将其转换为多维向量才能进行处理,特别是在机器学习应用中。这是使用将分子结构编码为向量的分子指纹特征提取算法实现的。这些指纹对于化学信息学中的任务至关重要,例如化学空间多样性、聚类、虚拟筛选、Scikit-fingerprints:用于高效分子指纹计算和与机器学习管道集成的高级 Python 库首先出现在 AI Quantum Intelligence 上。
How to Succeed as a Machine Learning Engineer in the Industry
5 条帮助我在 BigTech 不断超越期望的提示您是否想过要成为一名成功的机器学习工程师需要什么?您是否很难确定自己在这个充满活力的领域中的角色?我也有过这样的经历!嗨!我是 Kartik Singhal,Meta 的高级机器学习工程师。凭借在该领域的六年经验,我仍然发现自己每天都在学习。今天,我将分享五条秘诀,这些秘诀帮助我在 BigTech 担任高级机器学习工程师期间获得了“超出预期”的评级。💻 构建基础图片作者,来自 ChatGPT 4o 您需要很好地理解机器学习基础知识,并意识到其在实际应用中的局限性。了解核心概念:掌握监督学习与无监督学习、分类与回归的基础知识,以及深度学习的基础知
Step-by-Step Guide to Creating Simulated Data in Python
一个适合初学者的教程,教你如何生成自己的数据进行分析和测试照片由 Alexandru-Bogdan Ghita 在 Unsplash 上拍摄想象一下,你刚刚编写了一个机器学习模型,需要在特定场景中对其进行测试,或者你正在发布一篇关于自定义数据科学解决方案的学术论文,但可用的数据集有版权限制。另一方面,你可能正处于机器学习项目的调试和故障排除阶段,需要数据来识别和解决问题。所有这些情况,以及更多情况,都可以从使用模拟数据中受益。通常,现实世界的数据并不容易获得、昂贵或私密。因此,创建合成数据对数据科学从业者和专业人士来说是一项有用的技能。在本文中,我介绍了一些使用 Python 从头开始创建
NLP: Text Summarization and Keyword Extraction on Property Rental Listings — Part 1
NLP:房产租赁清单上的文本摘要和关键字提取 - 第 1 部分文本摘要、NER、主题建模和文本分类等 NLP 技术在租赁清单数据上的实际应用简介自然语言处理 (NLP) 可以显著增强租赁清单描述的分析和可用性。在本练习中,我们将探索文本摘要、命名实体识别 (NER) 和主题建模等 NLP 技术的实际应用,以提取见解并丰富东京 Airbnb 房源数据中的房源描述。使用公开可用的数据和 spaCy 和 SciKit-Learn 等工具,您可以跟着做,重现结果,或将这些技术应用于您自己的文本数据,只需进行最少的调整。代码库可在 GitHub 上找到,您可以 fork 并进行试验。本文演示了如何使用各
How to Handle Missing Data with Scikit-learn’s Imputer Module
在本文中,您将学习如何使用 Scikit-Learn Imputer 模块处理缺失数据以简化数据科学项目。
机器学习涵盖了很多领域,但它也有可能做出错误的决定。我们也已经达到了炒作的阶段,人们忘记了许多分类问题也可以由自然智能来处理。此软件包包含与 scikit-learn 兼容的工具,这些工具应该可以更轻松地构建和基准测试由人类设计的基于规则的系统。您还可以将其与 ML 模型结合使用。