Oversampling and Undersampling, Explained: A Visual Guide with Mini 2D Dataset
数据预处理人工生成和删除数据,以造福大众⛳️ 更多数据预处理,解释:· 缺失值插补 · 分类编码 · 数据缩放 · 离散化 ▶ 过采样和欠采样收集每个类别都有完全相同数量的类别需要预测的数据集可能是一个挑战。实际上,事情很少能完美平衡,当你制作分类模型时,这可能是一个问题。当一个模型在这样的数据集上训练时,一个类别比另一个类别有更多的示例,它通常会变得更擅长预测较大的组,而更不擅长预测较小的组。为了解决这个问题,我们可以使用过采样和欠采样等策略——为较小的组创建更多示例或从较大的组中删除一些示例。目前有许多不同的过采样和欠采样方法(名字吓人,如 SMOTE、ADASYN 和 Tomek Lin
Meet Git Stash: Your Secret Chest of Unfinished Code
一个强大的 Git 功能,用于临时保存正在进行的代码继续阅读 Towards Data Science »
Awesome Plotly with Code Series (Part 2): Colouring Bar Charts
不要创建彩虹色的条形图。但也不要让你的条形图变得无趣继续阅读 Towards Data Science »
Discover What Every Neuron in the Llama Model Does
Transluce 的新工具正在改变 AI 透明度的游戏规则——一个测试用例和一些值得思考的内容作者提供的图片——正在使用新工具!Transluce 是一家新成立的非营利研究实验室,肩负着鼓舞人心的使命,刚刚发布(23.10.24)一款引人入胜的工具,可深入了解 LLM 中的神经元行为。或者用他们自己的话说:当 AI 系统表现异常时,我们希望了解解释行为发生原因的“思维过程”。这使我们能够预测和修复 AI 模型的问题,发现隐藏的知识,并发现习得的偏见和虚假相关性。为了完成他们的使命,他们推出了一个可观察性界面,您可以在其中输入自己的提示,接收响应并查看哪些神经元被激活。然后,您可以探索激活的神
Transforming Data Quality: Automating SQL Testing for Faster, Smarter Analytics
如何根据业务问题测试 SQL 和结果数据集的质量以增加客户的信任照片由 Caspar Camille Rubin 在 Unsplash 上拍摄在软件开发方面,有很多自动化测试工具和框架可以依赖。但对于分析团队来说,手动测试和数据质量保证 (QA) 仍然是常态。很多时候,首先发现数据质量或完整性问题的是客户或业务团队,而不是分析团队。这就是自动化可以发挥巨大作用的地方。通过设置带有脚本的自动化系统来大规模运行数据质量测试,您可以保持快速运行,而不会牺牲数据的准确性或完整性。当然,当业务问题模糊或开放式时,这会变得更加棘手。在这些情况下,基于规则的逻辑和大型语言模型 (LLM) 的混合可以真正有所
C Programming Using Claude’s New Computer Use Model
Sonnet 能多好地为您编写和运行代码?继续阅读 Towards Data Science »
Neural Networks for Flexible Multivariate Forecasting
一个简单的分步指南,帮助您开始使用神经网络进行时间序列预测继续阅读 Towards Data Science »
The Curse of Conway and the Data Space
现代趋势如何追溯到康威定律图片由作者提供。(由 Midjourney 生成,使用 Krita 润色)本文最初发布在我的博客 https://jack-vanlightly.com 上。本文由 Bernd Wessely 的文章《数据架构:经验教训》中的“警惕孤岛专业化”部分引发并反复提及。它汇集了我看到的一些趋势以及我在软件/数据团队分歧两边工作二十年的经验后得出的自己的观点。康威定律:“任何设计系统(广义)的组织都会产生一个设计,其结构是该组织通信结构的副本。” — Melvin Conway 这在全球数十万个组织中上演,在软件开发和数据分析团队之间的分歧中最为明显。这两个团队通常具有不同的
AI Agent Workflows: A Complete Guide on Whether to Build With LangGraph or LangChain
深入研究由同一创建者开发的两个库 — LangChain 和 LangGraph:它们的关键构建块、它们如何处理核心功能,以及如何根据你的用例决定使用哪个库语言模型已经为用户如何与 AI 系统交互以及这些系统如何通过自然语言相互通信提供了可能性。当企业想要使用 Agentic AI 功能构建解决方案时,第一个技术问题通常是“我使用什么工具?”对于那些急于入门的人来说,这是第一个障碍。来源:Dalle-3在本文中,我们将探讨用于构建 Agentic AI 应用程序的两个最流行的框架 — LangChain 和 LangGraph。在本文结束时,你应该彻底了解关键构建块,了解每个框架在处理核心功能
Techniques for Chat Data Analytics with Python
第一部分:通信密度分析继续阅读 Towards Data Science »
Multilayer Perceptron, Explained: A Visual Guide with Mini 2D Dataset
分类算法剖析微型神经网络的数学(带视觉效果)有没有感觉神经网络无处不在?它们出现在新闻中、手机中,甚至出现在社交媒体中。但说实话 — 我们大多数人都不知道它们实际上是如何工作的。所有那些花哨的数学和像“反向传播”这样的奇怪术语?这里有一个想法:如果我们把事情变得非常简单会怎么样?让我们探索多层感知器 (MLP) — 最基本的神经网络类型 — 使用小型网络对简单的 2D 数据集进行分类,只需处理少量数据点。通过清晰的视觉效果和逐步解释,您将看到数学变得生动,确切地观察数字和方程式如何在网络中流动以及学习是如何发生的!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面
OpenAI embeddings and clustering for survey analysis — a How-To Guide
如何从调查数据中获取见解并使用嵌入和大型语言模型提取主题继续阅读 Towards Data Science »
Claude’s Computer Use — Intuitively and Exhaustively Explained
Anthropic 如何制作可以控制计算机的 AI继续阅读 Towards Data Science »
4 Years of Data Science in 8 Minutes
我在 4 年多的数据科学学习之旅中学到了什么继续阅读 Towards Data Science »
Successful AI Ethics & Governance at Scale: Bridging The Interpretation Gap
概括的原则需要专门的专业人士继续阅读 Towards Data Science »
Build and Deploy a Multi-File, Multi-Format RAG App to the Web
第 1 部分 — 使用 Python、Gradio、GROQ 和 LlamaIndex 开发代码继续阅读 Towards Data Science »
From AI Canvas to MLOps Stack Canvas: Are They Essential?
AI、ML 和 MLOps 堆栈画布,通过示例进行解释继续阅读 Towards Data Science »
Time Series — From Analyzing the Past to Predicting the Future
如何通过时间序列从过去中学习。继续阅读 Towards Data Science »