Watermarking for AI Text and Synthetic Proteins: Fighting Misinformation and Bioterrorism
Nataliya Smirnova 在 UnSplash 上拍摄的彩色病毒突变图像 人工智能文本和合成蛋白的水印 机器学习工程师了解人工智能在生物领域的应用 错误信息和生物恐怖主义并不是新威胁,但它们的规模和易用性迅速增加。法学硕士让制造挑拨离间自主聊天机器人变得轻而易举,而生成蛋白质设计模型则大大扩大了能够进行生物战的参与者的数量。作为一个社会,我们需要的工具多种多样,但一个重要的组成部分是我们检测它们存在的能力。这就是水印的作用所在。水印或数字水印与用来劫持您孩子的学校照片的物理水印不同,是一种用于识别所有权的秘密信号。有效的水印必须坚固耐用,经得起修改,同时在没有专门方法的情况下无法被检
Optimizing the Data Processing Performance in PySpark
PySpark 技术和策略解决常见的性能挑战:实践演练Apache Spark 近年来凭借其强大的分布式数据处理能力成为领先的分析引擎之一。PySpark 是 Spark 的 Python API,通常用于个人和企业项目以解决数据挑战。例如,我们可以使用 PySpark 高效地实现时间序列数据的特征工程,包括提取、提取和可视化。然而,尽管它能够处理大型数据集,但在极端数据分布和复杂的数据转换工作流等各种情况下仍然会出现性能瓶颈。本文将研究使用 Databricks 上的 PySpark 进行数据处理时的各种常见性能问题,并介绍各种微调策略以实现更快的执行速度。照片由 Veri Ivanova
Classify Jira Tickets with GenAI On Amazon Bedrock
使用快速工程和大型语言模型 (LLMS) 替代传统的 NLP 方法,用于 Jira 票证文本分类。代码示例演练照片由 Annie Spratt 在 Unsplash 上拍摄还记得分类文本意味着踏上机器学习之旅的日子吗?如果您在 ML 领域待的时间足够长,您可能已经目睹了至少一个团队在构建“完美”文本分类系统的兔子洞中消失。故事通常是这样的:第 1 个月:“我们只需快速训练一个 NLP 模型!”第 2 个月:“我们需要更多的训练数据……”第 3 个月:“这已经足够好了”多年来,文本分类已经落入了经典 ML 的范畴。在我职业生涯的早期,我记得训练了一个支持向量机 (SVM) 来进行电子邮件分类。大
Let There Be Light! Diffusion Models and the Future of Relighting
在这篇关于场景编辑的深入博客中,了解尖端扩散模型如何处理重新照明、协调和阴影消除。照片由 Brian Aitkenhead 在 Unsplash 上拍摄。重新照明是在给定输入场景的情况下,在指定的目标照明条件下渲染场景的任务。这是计算机视觉和图形学中的关键任务。然而,这是一个不适定问题,因为场景中物体的外观是由光源、几何形状和表面材料属性等因素之间的复杂相互作用产生的。这些相互作用产生了歧义。例如,给定一个场景的照片,物体上的黑点是由于照明投射的阴影造成的,还是材料本身的颜色很暗?区分这些因素是有效重新照明的关键。在这篇博文中,我们讨论了不同的论文如何通过扩散模型解决重新照明问题。重新照明包含
On the Programmability of AWS Trainium and Inferentia
使用自定义运算符加速 AI/ML 模型训练 — 第 4 部分照片由 Agata Bres 在 Unsplash 上拍摄在这篇文章中,我们继续探索通过自定义运算符开发来优化机器学习 (ML) 工作负载运行时的机会。这一次,我们重点介绍 AWS Neuron SDK 提供的工具,用于在 AWS Trainium 和 AWS Inferentia 上开发和运行新内核。随着推动 AI 革命的低级模型组件(例如注意层)的快速发展,用于训练和运行 ML 模型的加速器的可编程性至关重要。专用 AI 芯片必须为广泛使用且影响深远的通用 GPU (GPGPU) 开发框架(例如 CUDA 和 Triton)提供有
Choosing and Implementing Hugging Face Models
将预先训练好的模型从盒子中取出,用于您的用例照片由 Erda Estremera 在 Unsplash 上拍摄我最近在日常工作中尝试使用 Hugging Face 目录中的模型,从中获得了很多乐趣,我认为这可能是一个很好的时机来分享我所学到的知识,并为读者提供一些如何以最小的压力应用这些模型的提示。我最近的具体任务是查看大量非结构化文本数据(如备忘录、电子邮件、自由文本注释字段等)并根据与业务用例相关的类别对其进行分类。有很多方法可以做到这一点,我一直在尽可能多地探索,包括模式匹配和词典搜索等简单的东西,也扩展到使用预构建的神经网络模型来实现许多不同的功能,我对结果感到相当满意。我认为最好的策
构建最小的可用于生产的情绪分析模型照片由 Stephen Dawson 在 Unsplash 上拍摄什么是可用于生产的模型?我们听到了很多关于生产化机器学习的消息,但拥有一个可以在实际应用中蓬勃发展的模型到底意味着什么?有很多因素会影响机器学习模型在生产中的有效性。为了本文的目的,我们将重点介绍其中的五个。可重复性监控测试自动化版本控制服务推理构建可用于生产的机器学习模型的最重要部分是能够访问它。为此,我们构建了一个提供情绪分析响应的 fastapi 客户端。我们利用 pydantic 来确保输入和输出的结构。我们使用的模型是 huggingface 的 transformers 库中的基础情
Demystifying Azure Storage Account network access
揭开 Azure 存储帐户网络访问的神秘面纱服务端点和私有端点动手实践:包括 Azure Backbone、存储帐户防火墙、DNS、VNET 和 NSG 连接网络 — 图片来自 Unsplash 上的 Nastya Dulhiier1. 简介存储帐户在建立企业数据湖的徽章架构中起着至关重要的作用。它们充当集中式存储库,实现生产者和消费者之间的无缝数据交换。此设置使消费者能够执行数据科学任务并构建机器学习 (ML) 模型。此外,消费者可以将数据用于检索增强生成 (RAG),通过 ChatGPT 等大型语言模型 (LLM) 促进与公司数据的交互。高度敏感的数据通常存储在存储帐户中。在数据科学家和
Understanding K-Fold Target Encoding to Handle High Cardinality
平衡复杂性和性能:深入了解 K 折目标编码照片由 Mika Baumeister 在 Unsplash 上拍摄简介数据科学从业者在处理不同项目中的不同数据类型时会遇到许多挑战,每个项目都需要独特的处理方法。一个常见的障碍是使用传统机器学习模型难以有效处理的数据格式,导致模型性能不佳。由于大多数机器学习算法都针对数值数据进行了优化,因此将分类数据转换为数值形式至关重要。然而,这通常会过度简化复杂的分类关系,尤其是当特征具有高基数(即大量唯一值)时,这会使处理复杂化并妨碍模型准确性。高基数是指特征中唯一元素的数量,具体解决机器学习环境中分类标签的不同计数。当一个特征有许多唯一的分类标签时,它具有高
How to Create Opportunities and Succeed in Data Science Job Applications
从我的成功和失败中吸取的来之不易的教训将在你的职业生涯中为你提供帮助照片由 James Lee 在 Unsplash 拍摄事实上,是否被招聘人员注意到,往往取决于你在 LinkedIn 上的定位以及你如何为招聘流程做准备。在本文中,我分享了过去几年学到的一些经验教训,这些经验教训让我获得了 Mercado Livre、亚马逊、Meta、TikTok 和 Uber 等公司的面试邀请。1. 显而易见:让招聘人员看到我我收到的大多数面试邀请都是因为在 LinkedIn 上活跃且曝光率高。我开始更定期地发帖,至少每隔几周一次,分享我的故事并与其他人的帖子互动。以下是一些关键提示。讲述你的故事(相关部分
Image Data Collection for Climate Change Analysis
初学者指南埃特纳火山的卫星图像。来源:美国地质调查局 (USGS) 在 Unsplash 上的照片。I. 简介深度学习在地球观测中成功传播。它的成就导致了更复杂的架构和方法。然而,在这个过程中,我们忽略了一些重要的东西。拥有更多优质数据比拥有更好的模型更好。不幸的是,EO 数据集的开发一直很混乱。如今,它们有数百个。尽管我们努力编译数据集,但可以说它们散布在各处。此外,EO 数据已经激增以满足非常具体的需求。矛盾的是,这正是我们应该用它们前进的相反方向,特别是如果我们希望我们的深度学习模型更好地工作的话。例如,ImageNet 编译了数千张图像以更好地训练计算机视觉模型。然而,EO 数据比 I
Transforming Data Quality: Automating SQL Testing for Faster, Smarter Analytics
如何根据业务问题测试 SQL 和结果数据集的质量以增加客户的信任照片由 Caspar Camille Rubin 在 Unsplash 上拍摄在软件开发方面,有很多自动化测试工具和框架可以依赖。但对于分析团队来说,手动测试和数据质量保证 (QA) 仍然是常态。很多时候,首先发现数据质量或完整性问题的是客户或业务团队,而不是分析团队。这就是自动化可以发挥巨大作用的地方。通过设置带有脚本的自动化系统来大规模运行数据质量测试,您可以保持快速运行,而不会牺牲数据的准确性或完整性。当然,当业务问题模糊或开放式时,这会变得更加棘手。在这些情况下,基于规则的逻辑和大型语言模型 (LLM) 的混合可以真正有所
Key Roles in a Fraud Prediction project with Machine Learning
机器学习欺诈预测项目中的关键角色开发欺诈预测的 ML 模型涉及哪些类型的角色?照片由 Marvin Meyer 在 Unsplash 上拍摄在行业中开发机器学习项目时,数据科学家和 ML 工程师通常是主要角色。然而,实际上,交付产品需要一个村庄的共同努力。在之前的一篇文章中,我们讨论了使用机器学习开发欺诈预测产品所涉及的步骤。在本文中,我们将探讨此类项目中的各种角色以及每个角色如何为其成功做出贡献。免责声明:并非所有项目都一定会有具有下面列出的确切头衔的团队或个人;根据公司结构,一个人可能会身兼数职并履行多个角色。在这里,我根据我使用 ML/AI 处理不同欺诈预测项目的经验概述了结构。项目经理
Zero-Shot Localization with CLIP-Style Encoders
我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在
AI Model Optimization on AWS Inferentia and Trainium
使用 AWS Neuron SDK 加速 ML 的技巧照片由 julien Tromeur 在 Unsplash 上拍摄我们正处于人工智能的黄金时代,尖端模型颠覆了行业并准备改变我们所知的生活。推动这些进步的是越来越强大的人工智能加速器,例如 NVIDIA H100 GPU、Google Cloud TPU、AWS 的 Trainium 和 Inferentia 芯片等。随着选项数量的增加,选择最适合我们的机器学习 (ML) 工作负载的平台的挑战也随之而来——考虑到与 AI 计算相关的高成本,这是一个至关重要的决定。重要的是,对每个选项进行全面评估需要确保我们最大限度地利用它以充分利用其功能。
How to Get Started on Your Data Science Career Journey
初学者在选择数据科学和 AI/ML 技能提升资源时需要考虑的六个方面照片由 Zach Graves 在 Unsplash 上拍摄简介照片由 Jonathan Kemper 在 Unsplash 上拍摄显而易见,在过去十年中,数据科学已发展成为市场上最抢手的技能之一。传统企业、科技公司、咨询公司、初创公司 — — 随便什么 — — 都在不断招聘数据科学专业人士。该领域对经验丰富的专家的需求量大,而供应相对短缺,使其成为一个非常有利可图的职业机会。要进入该领域并取得成功,您不仅需要深入了解可用的算法和软件包,还需要培养对哪些方法适用于哪些用例的直觉。此外,您还需要学习如何将现实世界的问题转化为数据
Reinforcement Learning for Physics: ODEs and Hyperparameter Tuning
使用 gymnasium 控制微分方程并优化算法超参数照片由 Brice Cooper 在 Unsplash 上拍摄如前所述,强化学习 (RL) 提供了一种强大的新工具来应对控制非线性物理系统的挑战。非线性物理系统的特点是行为复杂,输入的微小变化可能导致输出的剧烈变化,或者只有微小的输出变化可能来自大输入。解决方案可以分裂,相同条件可以产生不同的输出,甚至以路径依赖的形式具有“记忆”。我们介绍了两种将 RL 应用于非线性物理系统的不同方法:传统的基于神经网络的软演员评论家 (SAC) 和不常见的基于遗传算法的遗传编程 (GP) 方法。简而言之,SAC 使用两个神经网络,一个用于学习环境的行为方
A Critical Look at AI Image Generation
图像生成 AI 究竟能告诉我们关于这个世界的什么信息?照片由 Math 在 Unsplash 上拍摄我最近有机会对一个有趣的项目进行分析,而我要说的太多了,无法在一篇文章中全部涵盖,所以今天我将讨论我对它的更多想法。研究人员在这个项目中采用的方法是向不同的生成 AI 图像生成工具提供一系列提示:Stable Diffusion、Midjourney、YandexART 和 ERNIE-ViLG(由百度提供)。这些提示特别针对不同的世代——婴儿潮一代、X 世代、千禧一代和 Z 世代,并要求在不同背景下拍摄这些群体的图像,例如“与家人在一起”、“度假”或“在工作”。虽然结果非常有趣,也许揭示了一些