Transformer关键词检索结果

从头开始​​在 JAX 中构建 Transformer:如何编写和训练自己的模型

Build a Transformer in JAX from scratch: how to write and train your own models

如何使用 JAX、Haiku 和 Optax 开发和训练 Transformer。通过示例学习如何在 JAX 中编写深度学习模型

了解用于深度学习的 einsum:从头开始实现具有多头自注意力机制的 Transformer

Understanding einsum for Deep learning: implement a transformer with multi-head self-attention from scratch

通过编写自定义多头自注意力单元和转换器块来了解 einsum 符号和 einops

10 分钟内了解 Vision Transformer (ViT) 的工作原理:一张图像价值 16x16 个字

How the Vision Transformer (ViT) works in 10 minutes: an image is worth 16x16 words

在本文中,您将了解视觉转换器如何解决图像分类问题。我们提炼了您需要掌握的所有重要细节,以及它在有足够的数据进行预训练的情况下可以很好地工作的原因。

Transformers 在深度学习和 NLP 中的工作原理:直观介绍

How Transformers work in deep learning and NLP: an intuitive introduction

对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效

高盛重申“谨慎的观点”,这是政府的“谨慎”和服务的覆盖范围,并在持续的大约削减中

An Overlooked Vulnerability That Could Cripple America's Power Grid

一个被忽视的脆弱性,可能会削弱库尔特·科布(Kurt Cobb)通过美国库尔特·科布(Kurt Cobb)的力量。 transformer wait times have ballooned from 50 to 127 weeks, crippling grid resilience in the face of wildfires, storms, or attacks.The Build America, Buy America Act and global demand for transformers have limited supply, with domestic produc

IEEE关于模糊系统的交易,第33卷,第7期,2025年7月

IEEE Transactions on Fuzzy Systems, Volume 33, Issue 7, July 2025

1) Optimizing Deep Neuro-Fuzzy Network for ECG Medical Big Data Through Integration of Multiscale FeaturesAuthor(s): Xin Wang, Jianhui Lv, Byung-Gyu Kim, Bidare Divakarachari Parameshachari, Keqin Li, Dongsheng Yang, Achyut ShankarPages: 2027 - 20372) FDformer: A Fuzzy Dynamic Transformer-Based高效工业时

了解Mamba中的输入选择性

Understanding Input Selectivity in Mamba

State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers.Mamba introduces input selectivity to its SSM layer (S6) andincorporates convolution and gating into its block definition.While these modifications do improve Mamba's performance over

cubify任何东西:缩放室内3D对象检测

Cubify Anything: Scaling Indoor 3D Object Detection

我们考虑了从商品手持设备中获取的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制。结果,我们介绍了Cubify-任何1M(CA-1M)数据集,该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象,并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来,我们建立Cubify Transformer…

变压器实验室:开源代码平台用AI语言模型简化了工作

Transformer Lab: Öppen källkods-plattform förenklar arbetet med AI-språkmodeller

人工智能和大型语言模型变得越来越易于​​访问,但实际上与它们合作通常需要专业知识。 Transformer Lab试图通过提供一个平台来改变这一点,开发人员可以在本地尝试AI模型而无需深入的技术知识。 Transformer Lab是一个开源代码平台,允许任何人构建,微调[…] Post Transformer Lab:开源平台最初出现在AI News上的AI语言模型来简化作品。

IEEE关于计算智能第9卷中新兴主题的交易,第2期,2025年4月

IEEE Transactions on Emerging Topics in Computational Intelligence Volume 9, Issue 2, April 2025

1) IDET: Iterative Difference-Enhanced Transformers for High-Quality Change DetectionAuthor(s): Qing Guo, Ruofei Wang, Rui Huang, Renjie Wan, Shuifa Sun, Yuxiang ZhangPages: 1093 - 11062) CVIformer: Cross-View Interactive Transformer for Efficient Stereoscopic Image Super-ResolutionAuthor(s): Dongya

复杂而智能的系统,第11卷,第2期,2025年2月

Complex and Intelligent Systems, Volume 11, Issue 2, February 2025

1)一种基于改进的地下电动运输车辆蚂蚁菌落算法的低碳调度方法:S):Yizhe Zhang,Yinan Guo,Shirong GE2)对Federated Learningauthor的安全威胁调查lag 3)隧道环境中的车辆定位系统:审查员:S):Suying Jiang,Qiufeng Xu,Jiachun li4)屏障并增强使用连续的线性二磷剂Neural Netrol Netrowsauthor的绿色供应链管理策略Abosuliman, Saleem Abdullah, Nawab Ali5) XTNSR: Xception-based transformer network for

Sigmoid 自注意力的理论、分析和最佳实践

Theory, Analysis, and Best Practices for Sigmoid Self-Attention

*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……

2025 年的 AGI | 您认为今天重要的事情在未来几个月仍然重要吗? TL;DR:不!

AGI in 2025 |Do you think what matters today will still matter in the coming months? TL;DR: No!

OpenAI、Sam Altman、Elon Musk、xAI、Anthropic、Gemini、谷歌、苹果……所有这些公司都在竞相在 2025 年前打造 AGI,一旦实现,将在数周内被数十家公司复制。创建压缩的人类知识库、提取信息并迭代输出以优化结果的想法已不再是革命性的。全球数千名工程师可以复制 OpenAI 所取得的成就,因为它主要涉及扩大 Transformers——谷歌开发的一种模型,而它本身只是先前 AI 研究的一个进步。但接下来会发生什么?劳动力下一个重大转变:地球上的每家公司都将尽可能开始用 AGI 取代工作负载,以最大化利润率。公司不会雇佣那么多人,因为有了 AI 代理,现有

从文本到 3D:NVIDIA 的 Edify 3D 背后的魔力

From text to 3D: the magic behind Edify 3D by NVIDIA

NVIDIA 的 Edify 3D 使用 AI 在 2 分钟内创建高质量的 3D 模型。通过结合多视图扩散模型和 Transformers,它可以从文本或图像快速、准确且可扩展地生成 3D,使其成为游戏、动画和设计行业的完美解决方案。

使用 Hugging Face 实现多模态 RAG

Multimodal RAG Implementation with Hugging Face

了解如何通过使用 Hugging Face Transformers 结合文本和视觉输入来增强 RAG 模型。

论文演练:注意力就是你所需要的一切

Paper Walkthrough: Attention Is All You Need

从头开始​​实现 Transformer 的完整指南继续阅读 Towards Data Science »

最小可行 MLE

Minimum Viable MLE

构建最小的可用于生产的情绪分析模型照片由 Stephen Dawson 在 Unsplash 上拍摄什么是可用于生产的模型?我们听到了很多关于生产化机器学习的消息,但拥有一个可以在实际应用中蓬勃发展的模型到底意味着什么?有很多因素会影响机器学习模型在生产中的有效性。为了本文的目的,我们将重点介绍其中的五个。可重复性监控测试自动化版本控制服务推理构建可用于生产的机器学习模型的最重要部分是能够访问它。为此,我们构建了一个提供情绪分析响应的 fastapi 客户端。我们利用 pydantic 来确保输入和输出的结构。我们使用的模型是 huggingface 的 transformers 库中的基础情

IEEE 人工智能学报,第 5 卷,第 10 期,2024 年 10 月

IEEE Transactions on Artificial Intelligence, Volume 5, Issue 10, October 2024

1) 基于 Transformer 的计算机视觉生成对抗网络:综合调查作者:Shiv Ram Dubey、Satish Kumar Singh页数:4851 - 48672) 数据驱动技术在智能家居社区规划、需求侧管理和网络安全中的应用作者:Dipanshu Naware、Arghya Mitra页数:4868 - 48833) 针对物体检测系统的中间人攻击作者:Han Wu、Sareh Rowlands、Johan Wahlström页数:4884 - 48924) 夜间色热语义分割的测试时间自适应作者:Yexin Liu、Weiming Zhang、Guoyang Zhao、Jinjing