Transformers and Beyond: Rethinking AI Architectures for Specialized Tasks
2017 年,一场重大变革重塑了人工智能 (AI)。一篇题为《注意力就是你所需要的一切》的论文介绍了 transformers。这些模型最初是为了增强语言翻译而开发的,现在已经发展成为一个强大的框架,在序列建模方面表现出色,在各种应用中实现了前所未有的效率和多功能性。如今,transformers 不仅仅是自然 […] 文章《Transformers 及其他:重新思考用于专门任务的 AI 架构》首先出现在 Unite.AI 上。
Building Multilingual Applications with Hugging Face Transformers: A Beginner’s Guide
查看使用 Hugging Face 构建多语言应用程序的实用指南。
让我们学习如何将 LayoutLM 与 Hugging Face Transformers 结合使用
How to Build a Text Classification Model with Hugging Face Transformers
了解从头开始训练基于转换器的文本分类模型的关键步骤。
How to Implement Named Entity Recognition with Hugging Face Transformers
让我们看看如何使用 NLP 和 LLM 库的瑞士军刀 Hugging Face 的 Transformers 执行 NER。
How to Summarize Texts Using the BART Model with Hugging Face Transformers
要使用 Hugging Face 的 BART 模型总结文本,请加载模型和标记器,输入文本,然后模型会生成简明的摘要。
How to Fine-Tune T5 for Question Answering Tasks with Hugging Face Transformers
使用 Hugging Face Transformers 对 T5 模型进行微调以完成问答任务非常简单:向模型提供问题和上下文,它就会学习生成正确的答案。
How to Use Hugging Face Transformers for Text-to-Speech Applications
要使用 Hugging Face Transformers 进行文本转语音,请加载预先训练的 TTS 模型并输入要转换为语音的文本。 该模型将生成音频,您可以直接保存或播放。
Transformer? Diffusion? Transfusion!
最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t
The Math Behind Multi-Head Attention in Transformers
深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo
User Action Sequence Modeling: From Attention to Transformers and Beyond
将推荐系统 LLM 化的探索继续阅读 Towards Data Science »
将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理领域取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,每个 token 的计算都依赖于前面的 token,因此有效部署它们带来了挑战。这需要细致的并行布局和内存。《高效部署大规模 Transformer 模型:可扩展和低延迟推理策略》一文首先出现在 AI Quantum Intelligence 上。
计算机视觉使机器能够解释和理解来自世界的视觉信息。这包括各种任务,例如图像分类、对象检测和语义分割。通过开发先进的神经网络架构,特别是卷积神经网络 (CNN) 和最近的 Transformers,推动了该领域的创新。这些模型已经展示了显著的效果。NVIDIA 研究人员推出 MambaVision:专为视觉应用量身定制的新型混合 Mamba-Transformer 主干首次出现在 AI Quantum Intelligence 上。
How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
Transformers 能否通过组合已建立的三段论来预测新的三段论?更一般地说,这些模型可以从头开始学习什么类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并没有解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了标记直方图之外还测量与目标非平凡相关的所需最少标记数。如实验所示……
Transformer-based Model for ASR N-Best Rescoring and Rewriting
语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备的资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于这样的应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明我们的 Rescore+Rewrite 模型优于……
Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5
你知道那句话吗?当你有一把锤子时,所有东西看起来都像钉子。在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们已经超出了……呃,算了吧。如果