Unsplash关键词检索结果

超越氪石:人类增强的法律和伦理

Beyond Kryptonite: The Law and Ethics of Human Enhancement

Rani Ravinthran | 网络、科技和空间研究员 图片来源于疾病控制中心 (CDC) via Unsplash。爆炸性的...

大多数数据质量计划在开始之前就失败了。原因如下。

Most Data Quality Initiatives Fail Before They Start. Here’s Why.

给我看看你的数据质量记分卡,我会告诉你一年后你是否会成功。照片由 Braden Collum 在 Unsplash 拍摄我每天都会与那些准备投入大量时间和资源用于注定会失败的数据质量计划的组织交谈。激励措施和 KPI 可以推动良好行为,这并不奇怪。销售薪酬计划受到严格审查,因此它们经常成为董事会会议的话题。如果我们对数据质量记分卡给予同样的关注会怎样?即使在其鼎盛时期,来自 Hadoop 时代的传统数据质量记分卡也很少取得巨大成功。我之所以知道这一点,是因为在创办 Monte Carlo 之前,我曾担任运营副总裁多年,试图创建能够推动信任和采用的数据质量标准。在过去几年中,云计算和元数据管理方

使用 CNN 进行医学图像去噪。在本文中,我将讨论…… | 作者 Rabeya Tus Sadia | 2024 年 7 月

Medical Image Denoising with CNN. In this article, I will discuss… | by Rabeya Tus Sadia | Jul, 2024

在本文中,我将讨论使用 CNN 对 CT 图像进行去噪的不同方法以及一些传统方法。Daniel Öberg 在 Unsplash 上的照片使用卷积神经网络 (CNN) 对 CT 图像进行去噪代表了医学成像技术的重大进步。CT(计算机断层扫描)扫描对于诊断和监测各种医疗状况非常有用,文章使用 CNN 对医学图像进行去噪。在本文中,我将讨论……| 作者 Rabeya Tus Sadia | 2024 年 7 月首次出现在 AI Quantum Intelligence 上。

使用 CNN 进行医学图像去噪

Medical Image Denoising with CNN

在本文中,我将讨论使用 CNN 对 CT 图像进行去噪的不同方法以及一些传统方法。Daniel Öberg 在 Unsplash 上的照片使用卷积神经网络 (CNN) 对 CT 图像进行去噪代表了医学成像技术的重大进步。CT(计算机断层扫描)扫描对于诊断和监测各种医疗状况非常有用,但由于使用低剂量辐射来最大限度地减少患者暴露,它们通常会受到噪音的影响。这种噪音会掩盖重要的细节并影响诊断的准确性。CNN 是一类深度学习神经网络,已被证明在解决这个问题上非常有效。这些网络在包含嘈杂和干净图像的大量数据集上进行训练,学习识别和消除噪音,同时保留关键的解剖细节。要了解如何对 CT 图像进行去噪以提高图

2M 令牌上下文窗口世界中的高级检索技术第 1 部分

Advanced Retrieval Techniques in a World of 2M Token Context Windows Part 1

2M Token Context Windows 世界中的高级检索技术,第 1 部分探索 RAG 技术以提高检索准确性 Google DeepMind 启动的可视化 AI 项目。来自 Unsplash 图像。首先,我们还关心 RAG(检索增强生成)吗?Gemini Pro 可以处理惊人的 2M 令牌上下文,而 GPT-3.5 发布时我们惊讶的只有 15k。这是否意味着我们不再关心检索或 RAG 系统?基于 Needle-in-a-Haystack 基准测试,答案是,虽然需求正在减少,尤其是对于 Gemini 模型,但高级检索技术仍可显着提高大多数 LLM 的性能。基准测试结果表明,长上下文模型

BlazeFace:如何在浏览器中运行实时对象检测

BlazeFace: How to Run Real-time Object Detection in the Browser

训练 BlazeFace 模型的分步指南,从 Python 训练管道到 JavaScript 演示,再到模型转换。自由改编自 Unsplash 上的 visuals 的照片得益于 Ultralytics 的 YOLO 等库,如今只需几行代码即可轻松创建强大的对象检测模型。不幸的是,这些解决方案的速度还不够快,无法在任何设备上以每秒 30 帧(通常被认为是视频应用程序的实时极限)的速度在 Web 浏览器中实时视频流上运行。通常,它在普通移动设备上的运行速度低于 10 fps。Web 浏览器上最著名的实时对象检测解决方案是 Google 的 MediaPipe。这是一个非常方便且用途广泛的解决方案

使用金融行业的机器学习进行欺诈预测:数据科学家的经验

Fraud Prediction with Machine Learning in the Financial Industry: A Data Scientist’s Experience

一位一线数据科学家的见解和经验照片由 Growtika 在 Unsplash 上拍摄 各位数据爱好者们,大家好!我想通过几篇文章与大家分享我 3 年开发机器学习模型来预测金融行业欺诈行为的经验。因此,如果您在欺诈检测项目中扮演项目经理、数据科学家、ML 工程师、数据工程师、Mlops 工程师、欺诈分析师或产品经理的任何角色,您可能会发现这篇文章很有帮助。在本系列的第一篇文章中,我想讨论以下几点:要解决的业务问题是什么项目的高级步骤业务问题每天,全球有数百万人使用汇款服务。这些服务帮助我们向亲人汇款,并使购物变得更容易。但欺诈者利用这些系统诱骗他人向他们汇款或接管他们的账户进行欺诈。这会伤害受害

PyTorch Tabular:评论

PyTorch Tabular: A Review

快速启动和运行的概述,避免混淆照片由 Pao Dayag 在 Unsplash 上拍摄我们时不时都会考虑是否要尝试新的工具或尝试一个包,而这其中存在一些风险。如果该工具无法满足我的需求,或者需要几天时间才能运行,或者需要我没有的复杂知识,该怎么办?今天,我将分享我自己使用 PyTorch Tabular 启动和运行模型的经验的简单回顾,并提供代码示例,这些示例应该可以帮助其他考虑使用它的用户以最少的麻烦快速上手。这个项目始于一个相当高维的 CatBoost 模型,这是一个具有多类分类结果的监督学习用例。数据集有大约 30 个高度不平衡的类,我将在以后的文章中更详细地描述它们。我想尝试将神经网络

开发人员应该使用 DuckDB 的三个理由

Three reasons why developers should use DuckDB

开发人员应该使用 DuckDB 的三个理由软件开发人员如何使用 DuckDB 进行数据分析软件开发人员必须身兼数职:从编写代码、设计系统到分析事件期间的数据转储。我们的大多数工具都针对这项任务进行了优化——对于编写代码,我们有强大的 IDE,对于设计系统,我们有功能丰富的图表工具。对于数据分析,软件开发人员是否拥有最好的工具?在本文中,我列出了三个主要原因,说明为什么 DuckDB(一种开源分析数据库)是软件开发人员必备的工具。来源:Unsplash原因 1:使用普遍理解的 SQL想象一下,你是一家食品配送公司的软件开发人员。您收到一封电子邮件,说与付款相关的客户投诉突然增加。该电子邮件包含一

为什么感觉不可能找到数据科学工作 | 作者:Egor Howell | 2024 年 7 月

Why It Feels Impossible to Get a Data Science Job | by Egor Howell | Jul, 2024

市场艰难的原因以及您可以采取的措施 照片由 Marten Bjork 在 Unsplash 上拍摄 显然,“数据是新的石油”,每年的需求都在增长,那么为什么现在感觉很难找到数据科学家的工作呢?好吧,在本文中,我解释了为什么这篇文章为什么感觉不可能找到数据科学工作 | 作者 Egor Howell | 2024 年 7 月首先出现在 AI Quantum Intelligence 上。

扩展您的 RAG:使用 LanceDB 和 Candle 的 Rust 驱动索引管道

Scale Up Your RAG: A Rust-Powered Indexing Pipeline with LanceDB and Candle

为大规模文档处理构建高性能嵌入和索引系统照片由 Marc Sendra Martorell 在 Unsplash 上拍摄1. 简介最近,检索增强生成 (或简称 RAG) 已成为使用大型语言模型构建生成式 AI 应用程序的事实标准。RAG 通过确保生成模型使用适当的上下文来增强文本生成,同时避免了为同一任务微调 LLM 所涉及的时间、成本和复杂性。RAG 还允许更有效地使用外部数据源并更轻松地更新模型的“知识”。尽管基于 RAG 的 AI 应用程序通常可以使用更适中或更小的 LLM,但它们仍然依赖于嵌入和索引所需知识库的强大管道,以及能够有效地检索并将相关上下文注入模型提示。在许多用例中,可以使

LLM 量化的终极手册

The Ultimate Handbook for LLM Quantization

深入研究 LLM 量化和技术照片由 Siednji Leon 在 Unsplash 上拍摄 CPU 上的 LLM?是的,你没听错。从处理对话到创建自己的图像,AI 自诞生以来已经取得了长足的进步。但它也带来了瓶颈。随着模型的扩展,它们的计算需求也在增加。AI 开始严重依赖计算能力。为了满足这些需求,我们转向了 GPU,剩下的就是历史了。许多设备没有强大的 GPU,因此错过了 AI 功能。有必要缩小这些模型的大小和功能,以便在计算能力有限的设备(如手机或仅配备 CPU 的计算机)上运行 AI 模型。早期的努力包括修剪和蒸馏等技术。然而,这些方法对于通常具有大规模架构的 LLM 来说并不可行。最近

在 Python 中创建模拟数据的分步指南

Step-by-Step Guide to Creating Simulated Data in Python

一个适合初学者的教程,教你如何生成自己的数据进行分析和测试照片由 Alexandru-Bogdan Ghita 在 Unsplash 上拍摄想象一下,你刚刚编写了一个机器学习模型,需要在特定场景中对其进行测试,或者你正在发布一篇关于自定义数据科学解决方案的学术论文,但可用的数据集有版权限制。另一方面,你可能正处于机器学习项目的调试和故障排除阶段,需要数据来识别和解决问题。所有这些情况,以及更多情况,都可以从使用模拟数据中受益。通常,现实世界的数据并不容易获得、昂贵或私密。因此,创建合成数据对数据科学从业者和专业人士来说是一项有用的技能。在本文中,我介绍了一些使用 Python 从头开始​​创建

细金属棒中的热扩散

Heat Diffusion in a Thin Metal Rod

热扩散方程的解满足傅里叶级数如果你加热绝缘金属棒的一小部分并将其放置一段时间,会发生什么?我们日常的热扩散经验让我们预测温度会逐渐趋于均匀。在完美绝缘的情况下,热量将永远留在金属中。这是对现象的正确定性描述,但如何定量描述它?照片由 Jonny Gios 在 Unsplash 上拍摄我们考虑包裹在绝缘材料中的细金属棒的一维问题。绝缘层可防止热量从侧面逸出杆,但热量可以沿杆轴流动。您可以在此处找到本文使用的代码。热扩散方程热扩散方程是一个简单的二阶微分方程,包含两个变量:x ∈ [0, L] 是沿杆的位置,t 是时间,u(x, t) 是温度,α 是材料的热扩散率。通过检查热扩散方程,我们可以对温

TensorFlow Transform:确保生产中的无缝数据准备

TensorFlow Transform: Ensuring Seamless Data Preparation in Production

利用 TensorFlow Transform 扩展用于生产环境的数据管道照片由 Suzanne D. Williams 在 Unsplash 上拍摄数据预处理是任何机器学习管道的主要步骤之一。Tensorflow Transform 可帮助我们在分布式环境中通过庞大的数据集实现它。在进一步介绍数据转换之前,数据验证是生产管道流程的第一步,这已在我的文章《在生产管道中验证数据:TFX 方式》中介绍过。请阅读本文以更好地理解本文。我已在此演示中使用 Colab,因为配置环境更容易(也更快)。如果您处于探索阶段,我也会推荐 Colab,因为它可以帮助您专注于更重要的事情。ML 管道操作从数据提取和

通过潜在变量镜头进行主成分分析 (PCA)

Principal Components Analysis (PCA) Through a Latent Variable Lens

概述 PPCA(经典 PCA 的扩展)及其通过 EM 算法应用于不完整数据照片由 Dhruv Weaver 在 Unsplash 上拍摄。随着 EM 算法的 E 和 M 步骤重复,该算法收敛到局部最大似然估计量。概率主成分分析 (PPCA) 是一种降维技术,利用潜在变量框架恢复数据中最大方差的方向。当噪声遵循各向同性高斯分布时,概率主成分将与经典主成分紧密相关,在缩放因子和正交旋转方面相同。因此,PPCA 可用于许多与经典 PCA 相同的应用,例如数据可视化和特征提取。PPCA 背后的潜在变量框架还提供了经典 PCA 所不具备的功能。例如,PPCA 可以轻松扩展以适应具有缺失值的数据,而经典

GenAI 时代的时间序列预测:让梯度提升表现得像 LLM | 作者 Marco Cerliani | 2024 年 7 月

Time Series Forecasting in the Age of GenAI: Make Gradient Boosting Behaves like LLMs | by Marco Cerliani | Jul, 2024

将零样本预测应用于标准机器学习模型 照片由 David Menidrey 在 Unsplash 上拍摄 生成式人工智能和大型语言模型 (LLM) 的兴起让全世界着迷,在各个领域掀起了一场革命。虽然这种技术的主要焦点是文本序列,但现在人们开始进一步关注 GenAI 时代的时间序列预测:让梯度提升的行为像 LLM | 作者 Marco Cerliani | 2024 年 7 月首次出现在 AI Quantum Intelligence 上。

机器学习预测准确性指南:插值和外推

The Machine Learning Guide for Predictive Accuracy: Interpolation and Extrapolation

评估训练数据之外的机器学习模型简介近年来,机器学习 (ML) 和深度学习 (DL) 等数据驱动方法已应用于广泛的任务,包括机器翻译和个性化定制推荐。这些技术通过分析大量数据揭示了给定训练数据集中的一些模式。但是,如果给定的数据集存在一些偏差并且不包含您想要了解或预测的数据,则可能很难从训练模型中获得正确答案。照片由 Stephen Dawson 在 Unsplash 上拍摄让我们考虑一下 ChatGPT 的情况。ChatGPT 目前的最新版本是 ChatGPT 4o,该模型使用的数据训练到 2023 年 6 月(本文撰写时)。因此,如果您询问 2024 年发生的事情,而这些事情未包含在训练数据