transform关键词检索结果

主题建模您的个人数据

Topic Modelling Your Personal Data

使用传统和 Transformer 模型探索经纪人存储的个人数据继续阅读 Towards Data Science »

Transformer?扩散?输血!

Transformer? Diffusion? Transfusion!

最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t

IEEE 认知和发展系统汇刊,第 16 卷,第 4 期,2024 年 8 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 16, Issue 4, August 2024

1) 基于多模态生理信号的用户感知多层级认知工作量估计作者:Pierluigi Vito Amadori、Yiannis Demiris页数:1212 - 12222) TR-TransGAN:用于纵向 MRI 数据集扩展的时间递归 Transformer 生成对抗网络作者:Chen-Chen Fan、Hongjun Yang、Liang Peng、Xiao-Hu Zhou、Shiqi Liu、Sheng Chen、Zeng-Guang Hou页数:1223 - 12323) 基于多标准 TD3 的深度强化学习用于分散式多机器人路径规划作者:Heqing Yin、Chang Wang、Chao

释放 Hugging Face 的力量以完成 NLP 任务

Unlocking the Power of Hugging Face for NLP Tasks

近年来,自然语言处理 (NLP) 领域取得了重大进展,这在很大程度上得益于能够理解和生成人类语言的复杂模型的发展。这场革命的关键参与者之一是 Hugging Face,这是一家开源 AI 公司,为各种 NLP 任务提供最先进的模型。Hugging Face 的 Transformers 库已成为希望实现强大 NLP 解决方案的开发人员和研究人员的首选资源。Inbound-leads-automatically-with-ai。这些模型在大量数据上进行训练,并经过微调以在特定任务上实现出色的性能。该平台还提供工具和资源,帮助用户在自己的数据集上微调这些模型,使其具有高度的通用性和用户友好性。在这

复杂与智能系统,第 10 卷,第 4 期,2024 年 8 月

Complex & Intelligent Systems, Volume 10, Issue 4, August 2024

1) 一种用于动作识别的人体骨骼关键帧选择优化方法作者:陈浩,潘悦凯,王晨武页数:4659 - 46732) 城市轨道交通网络短期起讫点流量预测:基于多源大数据的深度学习方法作者:崔红萌,司冰峰……潘伟婷页数:4675 - 46963) 用于社区检测的多约束非负矩阵分解:正交正则稀疏约束非负矩阵分解作者:陈子刚,肖奇……李晓勇页数:4697 - 47124) 使用多层时间图神经网络预测社交媒体网络中的流行趋势作者:金瑞东,刘欣,村田刚页数:4713 - 47295) 受全变分和深度去噪先验启发的混合正则化用于图像恢复作者:Hu Liang, Jiahao Zhang...Jinbo Zhu页数

Flash Attention:彻底改变变压器效率

Flash Attention: Revolutionizing Transformer Efficiency

随着 Transformer 模型的规模和复杂性不断增长,它们在计算效率和内存使用方面面临着重大挑战,尤其是在处理长序列时。Flash Attention 是一种优化技术,有望彻底改变我们在 Transformer 模型中实现和扩展注意力机制的方式。在本综合指南中,我们将深入探讨 […]The post Flash Attention:革命性地改变 Transformer 效率首先出现在 Unite.AI 上。

Transformers 中多头注意力背后的数学

The Math Behind Multi-Head Attention in Transformers

深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo

用户操作序列建模:从注意力到 Transformers 及其他

User Action Sequence Modeling: From Attention to Transformers and Beyond

将推荐系统 LLM 化的探索继续阅读 Towards Data Science »

大规模 Transformer 模型的高效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理领域取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,每个 token 的计算都依赖于前面的 token,因此有效部署它们带来了挑战。这需要细致的并行布局和内存。《高效部署大规模 Transformer 模型:可扩展和低延迟推理策略》一文首先出现在 AI Quantum Intelligence 上。

大规模变换器模型的有效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理中取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,有效部署它们带来了挑战,其中每个标记的计算都依赖于前面的标记。这需要细致的并行布局和内存帖子《大规模 Transformer 模型的有效部署:可扩展和低延迟推理策略》首先出现在 AI Quantum Intelligence 上。

注意力有多顺畅?

How Smooth Is Attention?

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...

关于非布尔函数在未见范围内泛化的最小度偏差

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions

我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……

在 CPU 上优化大型语言模型 (LLM):增强推理和效率的技术

Optimizing Large Language Models (LLMs) on CPUs: Techniques for Enhanced Inference and Efficiency

基于 Transformer 架构构建的大型语言模型 (LLM) 最近取得了重要的技术里程碑。这些模型在理解和生成类似于人类的写作方面的卓越技能对各种人工智能 (AI) 应用产生了重大影响。尽管这些模型运行良好,但文章《在 CPU 上优化大型语言模型 (LLM):增强推理和效率的技术》首先出现在 AI Quantum Intelligence 上。

NVIDIA 研究人员推出 MambaVision:一种专为视觉应用量身定制的新型混合 Mamba-Transformer 主干

NVIDIA Researchers Introduce MambaVision: A Novel Hybrid Mamba-Transformer Backbone Specifically Tailored for Vision Applications

计算机视觉使机器能够解释和理解来自世界的视觉信息。这包括各种任务,例如图像分类、对象检测和语义分割。通过开发先进的神经网络架构,特别是卷积神经网络 (CNN) 和最近的 Transformers,推动了该领域的创新。这些模型已经展示了显著的效果。NVIDIA 研究人员推出 MambaVision:专为视觉应用量身定制的新型混合 Mamba-Transformer 主干首次出现在 AI Quantum Intelligence 上。

使用多样化建模单元增强基于 CTC 的语音识别

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……

阿根廷批准新政策,开放航空市场

Argentina opens up aviation market in approved new policy

阿根廷政府发布了第 599/2024 号法令,该法令规范了该国商业航空市场的准入、新运营商的进入(包括希望在阿根廷境内运营第九航权航班的外国航空公司)以及机场服务的优化。由 Federico Sturzenegger 领导的放松管制和国家转型部 (Ministerio de Desregulación y Transformación del Estado) 推动的政策变化包括:...

使用 Amazon SageMaker 上经过微调的嵌入模型提高 RAG 准确性

Improve RAG accuracy with fine-tuned embedding models on Amazon SageMaker

这篇文章演示了如何使用 Amazon SageMaker 微调 Sentence Transformer 嵌入模型并将其部署到 Amazon SageMaker Endpoint。本文中的代码和更多示例可在 GitHub 存储库中找到。

TensorFlow Transform:确保生产中的无缝数据准备

TensorFlow Transform: Ensuring Seamless Data Preparation in Production

利用 TensorFlow Transform 扩展用于生产环境的数据管道照片由 Suzanne D. Williams 在 Unsplash 上拍摄数据预处理是任何机器学习管道的主要步骤之一。Tensorflow Transform 可帮助我们在分布式环境中通过庞大的数据集实现它。在进一步介绍数据转换之前,数据验证是生产管道流程的第一步,这已在我的文章《在生产管道中验证数据:TFX 方式》中介绍过。请阅读本文以更好地理解本文。我已在此演示中使用 Colab,因为配置环境更容易(也更快)。如果您处于探索阶段,我也会推荐 Colab,因为它可以帮助您专注于更重要的事情。ML 管道操作从数据提取和