MOE & MOA for Large Language Models
向专家小组寻求建议图片由作者提供(AI 生成 leonardo.ai)大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直在使用数万个 Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长是否能持续下去。这些 LLM 面临的挑战很多,但让我们在这里探讨一些。成本和可扩展性:较大的模型可能需要花费数千万美元来训练和服务,成为日常应用程序采用的障碍。 (参见 GPT-4 的训练成本
Pitching (AI) Innovation in Your Company
在当前工作中开启 AI 之旅的关键步骤图片来自 KindelMedia,在 Pexels 我多次听说数据科学家因公司内部缺乏酷炫项目而感到沮丧。说服业务利益相关者和管理层启动 AI 项目可能具有挑战性。虽然数据科学家通常没有责任去思考和提出需要优先考虑的项目,但我已经看到数据科学家与数据经理和产品经理一起如何影响路线图并帮助引入更具创新性和影响力的项目。在这篇博文中,我将分享一些我见过的成功影响团队或公司文化的步骤和策略,以引入更具创新性的 ML 或基于 AI 的项目。请注意,这不是一天发生的事情,而是一段旅程,在此期间,您的知识和动力可以帮助公司中的其他人跳出思维定势,看到 ML 和 AI
快速启动和运行的概述,避免混淆照片由 Pao Dayag 在 Unsplash 上拍摄我们时不时都会考虑是否要尝试新的工具或尝试一个包,而这其中存在一些风险。如果该工具无法满足我的需求,或者需要几天时间才能运行,或者需要我没有的复杂知识,该怎么办?今天,我将分享我自己使用 PyTorch Tabular 启动和运行模型的经验的简单回顾,并提供代码示例,这些示例应该可以帮助其他考虑使用它的用户以最少的麻烦快速上手。这个项目始于一个相当高维的 CatBoost 模型,这是一个具有多类分类结果的监督学习用例。数据集有大约 30 个高度不平衡的类,我将在以后的文章中更详细地描述它们。我想尝试将神经网络
The Math Behind Multi-Head Attention in Transformers
深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo
The Ultimate Guide to Finding Outliers in Your Time-Series Data (Part 3)
发现异常值:现在怎么办?治疗方案指南继续阅读 Towards Data Science »
How to Manipulate the Total in Power BI
在大多数情况下,总计会汇总视觉效果中的详细信息行。但如果总计应该显示不同内容怎么办?继续阅读 Towards Data Science »
The LLM Triangle Principles to Architect Reliable AI Apps
软件设计原则,用于精心设计可靠、高性能的 LLM 应用程序。一个框架,用于弥合潜在性能和生产级性能之间的差距。大型语言模型 (LLM) 具有巨大的潜力,但开发可靠的生产级应用程序仍然具有挑战性。在构建了数十个 LLM 系统之后,我将成功的公式提炼为任何团队都可以应用的四个基本原则。“LLM 原生应用程序 10% 是复杂的模型,90% 是实验数据驱动的工程工作。”构建可用于生产的 LLM 应用程序需要谨慎的工程实践。当用户无法直接与 LLM 交互时,必须精心编写提示以涵盖所有细微差别,因为可能无法获得迭代用户反馈。介绍 LLM 三角原则LLM 三角原则概括了构建有效 LLM 原生应用程序的基本准
User Action Sequence Modeling: From Attention to Transformers and Beyond
将推荐系统 LLM 化的探索继续阅读 Towards Data Science »
PyEnv & Poetry Tutorial: Ultimate Data Science Setup
如何将 PyEnv 和 Poetry 结合用于数据科学项目的环境和包管理继续阅读 Towards Data Science »
PySpark Explained: User-Defined Functions
它们是什么,如何使用它们?继续阅读 Towards Data Science »
VerifAI Project: Open Source Biomedical Question Answering with Verified Answers
基于 Qdrant 和 OpenSearch 索引构建 LLM(Mistral 7B)生物医学问答系统的经验,并采用幻觉检测方法去年 9 月(2023 年),在获得 Horizon Europe 的 NGI Search 资助计划的资助后,我们着手开发 VerifAI 项目。该项目的想法是创建一个基于经过审查的文档(因此我们使用了一个名为 PubMed 的生物医学期刊出版物库)的生物医学领域生成搜索引擎,并使用一个额外的模型来验证生成的答案,通过比较引用的文章和生成的声明。在生物医学等领域,以及一般科学领域,人们对幻觉的容忍度很低。虽然有些项目和产品(例如 Elicit 或 Perplex
Three reasons why developers should use DuckDB
开发人员应该使用 DuckDB 的三个理由软件开发人员如何使用 DuckDB 进行数据分析软件开发人员必须身兼数职:从编写代码、设计系统到分析事件期间的数据转储。我们的大多数工具都针对这项任务进行了优化——对于编写代码,我们有强大的 IDE,对于设计系统,我们有功能丰富的图表工具。对于数据分析,软件开发人员是否拥有最好的工具?在本文中,我列出了三个主要原因,说明为什么 DuckDB(一种开源分析数据库)是软件开发人员必备的工具。来源:Unsplash原因 1:使用普遍理解的 SQL想象一下,你是一家食品配送公司的软件开发人员。您收到一封电子邮件,说与付款相关的客户投诉突然增加。该电子邮件包含一
Your 15-Minute Guide on Using Causal Inference in Business (with Placebo Tests)
“相关性不代表因果关系。”所以让我们计算因果关系。继续阅读 Towards Data Science »
Introducing zeroCPR: An Approach to Finding Complementary Products
推荐系统当前的 ML 模型可以推荐类似的产品,但互补性如何?在 AI 推荐系统领域,机器学习模型已被广泛用于推荐类似的样本,无论是产品、内容,还是建议类似的联系人。这些预训练模型大多数都是开源的,无需从头开始训练模型即可使用。但是,由于缺乏大数据,我们没有可以依赖的开源技术来推荐互补产品。在下面的文章中,我提出了一个框架(代码以用户友好库的形式呈现),该框架利用 LLM 以低成本的方式发现互补产品。我引入这个框架的目标是:可扩展该框架在运行时不需要监督,没有中断的风险,并且输出应该易于构建,可以与其他工具结合使用。负担得起应该能够以最低的花费(每 1000 个计算产品约 1 美元 - 使用 g
Diffusion Model from Scratch in Pytorch
去噪扩散概率模型 (DDPM) 的实现 MNIST 上的 DDPM 示例 — 作者提供的图片简介一般来说,扩散模型是一种生成式深度学习模型,它从学习到的去噪过程中创建数据。扩散模型有很多种,最流行的通常是文本条件模型,它可以根据提示生成特定的图像。一些扩散模型 (Control-Net) 甚至可以将图像与某些艺术风格融合在一起。下面是一个例子:作者使用经过微调的 MonsterLabs 的 QR Monster V2 提供的图片如果您不知道这幅图像有什么特别之处,请尝试远离屏幕或眯起眼睛来查看图像中隐藏的秘密。扩散模型有许多不同的应用和类型,但在本教程中,我们将构建基础的无条件扩散模型 DDP
Sampling from Multivariate Distributions: From Statistical to Generative Modeling
将经典统计方法与尖端生成 AI 模型相结合,从多元分布中进行采样。继续阅读 Towards Data Science »
Chaining Pandas Operations: Strengths and Limitations
了解何时值得在管道中链接 Pandas 操作。继续阅读 Towards Data Science »
Reinforcement Learning, Part 5: Temporal-Difference Learning
智能协同动态规划和蒙特卡罗算法简介强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其行为中学习,从而获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。强化学习的非凡之处在于,可以使用相同的算法使代理适应完全不同、未知和复杂的条件。注意。为了充分理解本文中的概念,强烈建议您熟悉之前文章中讨论的动态规划和蒙特卡罗方法。强化学习,第 2 部分:策略评估和改进强化学习,第 3 部分:蒙特卡罗方法关于本文在第 2 部分中,我们探索了动态规划 (DP) 方法,其中代理根据先前的计算迭代更新 V-/Q 函数及其策略,并用新的估计值替换它们。