Transformers and Beyond: Rethinking AI Architectures for Specialized Tasks
2017 年,一场重大变革重塑了人工智能 (AI)。一篇题为《注意力就是你所需要的一切》的论文介绍了 transformers。这些模型最初是为了增强语言翻译而开发的,现在已经发展成为一个强大的框架,在序列建模方面表现出色,在各种应用中实现了前所未有的效率和多功能性。如今,transformers 不仅仅是自然 […] 文章《Transformers 及其他:重新思考用于专门任务的 AI 架构》首先出现在 Unite.AI 上。
Building Multilingual Applications with Hugging Face Transformers: A Beginner’s Guide
查看使用 Hugging Face 构建多语言应用程序的实用指南。
让我们学习如何将 LayoutLM 与 Hugging Face Transformers 结合使用
How to Build a Text Classification Model with Hugging Face Transformers
了解从头开始训练基于转换器的文本分类模型的关键步骤。
How to Implement Named Entity Recognition with Hugging Face Transformers
让我们看看如何使用 NLP 和 LLM 库的瑞士军刀 Hugging Face 的 Transformers 执行 NER。
How to Summarize Texts Using the BART Model with Hugging Face Transformers
要使用 Hugging Face 的 BART 模型总结文本,请加载模型和标记器,输入文本,然后模型会生成简明的摘要。
How to Fine-Tune T5 for Question Answering Tasks with Hugging Face Transformers
使用 Hugging Face Transformers 对 T5 模型进行微调以完成问答任务非常简单:向模型提供问题和上下文,它就会学习生成正确的答案。
How to Use Hugging Face Transformers for Text-to-Speech Applications
要使用 Hugging Face Transformers 进行文本转语音,请加载预先训练的 TTS 模型并输入要转换为语音的文本。 该模型将生成音频,您可以直接保存或播放。
The Math Behind Multi-Head Attention in Transformers
深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo
User Action Sequence Modeling: From Attention to Transformers and Beyond
将推荐系统 LLM 化的探索继续阅读 Towards Data Science »
How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
Transformers 能否通过组合已建立的三段论来预测新的三段论?更一般地说,这些模型可以从头开始学习什么类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并没有解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了标记直方图之外还测量与目标非平凡相关的所需最少标记数。如实验所示……
Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5
你知道那句话吗?当你有一把锤子时,所有东西看起来都像钉子。在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们已经超出了……呃,算了吧。如果
How Transformers work in deep learning and NLP: an intuitive introduction
对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效
An Overlooked Vulnerability That Could Cripple America's Power Grid
一个被忽视的脆弱性,可能会削弱库尔特·科布(Kurt Cobb)通过美国库尔特·科布(Kurt Cobb)的力量。 transformer wait times have ballooned from 50 to 127 weeks, crippling grid resilience in the face of wildfires, storms, or attacks.The Build America, Buy America Act and global demand for transformers have limited supply, with domestic produc
Understanding Input Selectivity in Mamba
State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers.Mamba introduces input selectivity to its SSM layer (S6) andincorporates convolution and gating into its block definition.While these modifications do improve Mamba's performance over
IEEE Transactions on Emerging Topics in Computational Intelligence Volume 9, Issue 2, April 2025
1) IDET: Iterative Difference-Enhanced Transformers for High-Quality Change DetectionAuthor(s): Qing Guo, Ruofei Wang, Rui Huang, Renjie Wan, Shuifa Sun, Yuxiang ZhangPages: 1093 - 11062) CVIformer: Cross-View Interactive Transformer for Efficient Stereoscopic Image Super-ResolutionAuthor(s): Dongya