Transforming Data Quality: Automating SQL Testing for Faster, Smarter Analytics
如何根据业务问题测试 SQL 和结果数据集的质量以增加客户的信任照片由 Caspar Camille Rubin 在 Unsplash 上拍摄在软件开发方面,有很多自动化测试工具和框架可以依赖。但对于分析团队来说,手动测试和数据质量保证 (QA) 仍然是常态。很多时候,首先发现数据质量或完整性问题的是客户或业务团队,而不是分析团队。这就是自动化可以发挥巨大作用的地方。通过设置带有脚本的自动化系统来大规模运行数据质量测试,您可以保持快速运行,而不会牺牲数据的准确性或完整性。当然,当业务问题模糊或开放式时,这会变得更加棘手。在这些情况下,基于规则的逻辑和大型语言模型 (LLM) 的混合可以真正有所
Build and Deploy a Multi-File, Multi-Format RAG App to the Web
第 1 部分 — 使用 Python、Gradio、GROQ 和 LlamaIndex 开发代码继续阅读 Towards Data Science »
Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可
Unleash the Power of Probability to Predict the Future of Your Business
在现实世界中使用 Python 概率概念的实用指南继续阅读 Towards Data Science »
Autoencoders: An Ultimate Guide for Data Scientists
架构、Python 实现和未来展望的初学者指南继续阅读 Towards Data Science »
Fine-Tuning BERT for Text Classification
一个带有 Python 代码的可破解示例尽管当今的 100B+ 参数转换器模型是 AI 领域最先进的模型,但我们仍然可以使用较小的(<1B 参数)模型完成很多工作。在本文中,我将介绍一个这样的示例,即微调 BERT(1.1 亿个参数)以对网络钓鱼 URL 进行分类。我将首先介绍关键概念,然后分享示例 Python 代码。图片来自 Canva。微调微调涉及通过额外的训练将预训练模型调整到特定用例。预训练模型是通过无监督学习开发的,从而无需大规模标记数据集。然后,与从头开始训练相比,经过微调的模型可以利用预先训练的模型表示来显着降低训练成本并提高模型性能 [1]。微调大型语言模型 (LLM)将训练
Bringing Structure to Your Data
使用路径模型测试假设在复杂的路径模型中,找到自己的路可能变得困难。照片由 Deva Darshan 在 Unsplash 上拍摄数据科学家经常收集大量变量并寻找它们之间的关系。在此过程中,对变量之间究竟如何相互关联做出假设和假设会很有帮助。学生为下一次考试学习的动力会影响他们的成绩吗?或者好成绩会激发学习的动力吗?激励人们表现出的行为模式究竟是什么,最终会带来好成绩?为了给上述问题提供一些结构,并提供一个工具来实证测试它们,我想在本文中解释路径模型,也称为结构方程模型 (SEM)。虽然在心理学等社会科学中路径模型很常用,但我觉得它们在数据科学和计算机科学等其他领域并不那么突出。因此,我想概述路
BBTok Targeting Brazil: Deobfuscating the .NET Loader with dnlib and PowerShell
我们分解了针对巴西的威胁 BBTok 的完整感染链,并演示了如何使用 PowerShell、Python 和 dnlib 对加载程序 DLL 进行反混淆。
Build a WhatsApp LLM Bot: a Guide for Lazy Solo Programmers
我如何在 12 小时内使用 Python、AWS 和 OpenAI 构建它,以及学到的经验教训继续阅读 Towards Data Science »
The Essential Guide to Effectively Summarizing Massive Documents, Part 1
文档摘要对于 GenAI 用例很重要,但如果文档太大怎么办!?继续阅读以了解我是如何解决这个问题的。“总结大量文本”——使用 GPT-4o 生成的图像文档摘要如今已成为使用现代生成式人工智能 (GenAI) 技术解决的最常见问题陈述之一(如果不是最常见问题)。检索增强生成 (RAG) 是一种用于解决该问题的常见但有效的解决方案架构。但是,如果文档本身太大以至于无法在单个 API 请求中作为一个整体发送怎么办?或者,如果它产生太多块而导致臭名昭著的“迷失在中间”上下文问题怎么办?在本文中,我将讨论我们在处理此类问题陈述时面临的挑战,并逐步介绍我使用 Greg Kamradt 在其 GitHub
根本区别:MIDI 乐谱与 MIDI 表演在开始使用 MIDI 文件的深度学习项目之前,请确保您知道 MIDI 乐谱和 MIDI 表演之间的区别!本文适用于计划或开始使用 MIDI 文件的人。这种格式在音乐界被广泛使用,由于数据集的可用性,它引起了计算机音乐研究人员的注意。但是,不同类型的信息可以编码在 MIDI 文件中。特别是,MIDI 乐谱和 MIDI 表演之间存在很大差异。不了解这一点会导致在无用的任务上浪费时间或错误地选择训练数据和方法。我将对这两种格式进行基本介绍,并提供如何在 Python 中开始使用它们的动手示例。什么是 MIDI?MIDI 是作为合成器之间的实时通信协议引入的。
Launch: Custom training scripts on Viam | Viam
我们刚刚推出了使用自定义 Python 脚本训练模型的支持,允许您控制 Viam 上的模型训练过程并利用任何基于 Python 的框架。
Forecasting Germany’s Solar Energy Production: A Practical Approach with Prophet
使用 Python 进行分析和实施继续阅读 Towards Data Science »
Is Multi-Collinearity Destroying Your Causal Inferences In Marketing Mix Modelling?
因果 AI,探索因果推理与机器学习的整合照片由 NOAA 在 Unsplash 上拍摄本系列是关于什么的?欢迎来到我的因果 AI 系列,我们将探索因果推理与机器学习模型的整合。期望探索不同业务环境中的许多实际应用。在上一篇文章中,我们介绍了使用 CUPED 和双重机器学习为实验提供动力。今天,我们将重点转移到了解多重共线性如何损害您做出的因果推断,特别是在营销组合建模中。如果您错过了上一篇关于使用 CUPED 和双重机器学习为实验提供动力的文章,请在此处查看:使用 CUPED 和双重机器学习为实验提供动力简介在本文中,我们将探讨多重共线性的破坏性,并评估我们可以用来解决它的一些方法。将涵盖以下
Achieve Better Classification Results with ClassificationThresholdTuner
用于调整和可视化二分类和多分类问题阈值选择的 Python 工具调整分类问题中使用的阈值(即调整用于决定预测一个类别还是另一个类别的概率的截止值)是一个有时会被遗忘的步骤,但很容易做到并且可以显著提高模型的质量。这是大多数分类问题都应该执行的步骤(根据我们希望优化的内容,有一些例外,如下所述)。在本文中,我们将仔细研究执行此操作时实际发生的情况 — 特别是在多分类中,这可能会有点微妙。我们将介绍我自己编写的开源工具 ClassificationThesholdTuner,它可以自动化并向用户描述该过程。考虑到调整阈值的任务在分类问题中是多么常见,以及不同项目之间的过程通常有多么相似,我已经能够
From Research to Production: Lessons Learned and Best Practices
摘要:本文概述了最佳实践,以帮助个人和团队将软件从研究产品过渡到生产环境。本文中包含的信息包括最佳实践和从一项任务中吸取的经验教训,该任务包括将一套基于科学的研究程序转换为更现代的软件格式,并做好适当的准备和考虑,以便在生产环境中部署。原始软件套件是使用 MATLAB 和 Python 编程语言编写的,而新的生产版本是用 Python 编程语言编写的。
How to Convert PDF to Google Sheets: 7 Methods Explained
了解将 PDF 转换为 Google 表格的 7 种方法,包括 Google 文档、转换器、附加组件、Adobe Acrobat、Python 和 AI 工具。选择最适合您需求的方法。
Makeblock mBot2: An Insanely Fun Educational AI Robot That Teaches You To Code
mBot2 是一款专为 8-12 岁儿童设计的 STEM 教育机器人玩具,提供视觉和直观的学习体验。使用 mBot2,孩子们可以学习 Scratch 和 Python 编程、电子组装、机器人技术和计算机科学。这种多功能工具通常用于课堂、课后活动和家庭,帮助学生培养逻辑思维、解决问题的能力 […]