Transformer领域信息情报检索---XiaoMi-AI

2026年3月25日 00:00

思考未来：Transformers 的潜在前瞻训练

Thinking into the Future: Latent Lookahead Training for Transformers

本文被 ICLR 的潜在与内隐思维研讨会 - 超越 CoT 推理 2026 接受。使用下一个标记预测训练的自回归语言模型通过一次采样一个离散标记来生成文本。尽管具有很强的可扩展性，但这个目标迫使模型在每一步都做出承诺，从而阻止它探索或反思多个看似合理的延续。此外，跨代币的计算分配是统一的；每个令牌都是基于单个前向传递形成的，在困难令牌的情况下可能会限制模型的表达能力......

Clarifai博客 | 实际应用中的人工智能

2026年3月16日 23:00

Flash注意2：减少GPU内存并加速Transformers

Flash Attention 2: Reducing GPU Memory and Accelerating Transformers

将公共 MCP 服务器部署为 API 端点，并使用函数调用将其工具集成到 LLM 工作流程中。

计算智能

2026年4月9日 04:51

IEEE Transactions on Cognitive and Developmental Systems，第 18 卷，第 2 期，2026 年 4 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 18, Issue 2, April 2026

1) 机器人抓取中一致路径的抓取表示和检测作者：L. Chen, Z. Li, J. Yang, Z. Lu, P. Wu, T. ChenPages: 302 - 3022) CIDDA: Classifier-Driven Implicit Discriminator Domain Adaptation for EEG-Based Emotion Recognition and Depression Severity Grading作者：R. Hu, Z. Yang, J. Shan, N. Su, Y. Tang, H. Yan, X. Lv, D. Fu, H. Zhu, T. Jia

亚马逊云科技 _机器学习

2026年4月2日 13:30

在 AWS 上扩展地震基础模型：使用 Amazon SageMaker HyperPod 进行分布式训练并扩展上下文窗口

Scaling seismic foundation models on AWS: Distributed training with Amazon SageMaker HyperPod and expanding context windows

本文介绍了 TGS 如何使用 Amazon SageMaker HyperPod 实现分布式训练的近线性扩展以及基于 Vision Transformer 的 SFM 的扩展上下文窗口。该联合解决方案将训练时间从 6 个月缩短至仅 5 天，同时能够分析比以前更大的地震体积。

计算智能

2026年3月27日 09:44

IEEE Transactions on Emerging Topics in Computational Intelligence 第 10 卷，第 2 期，2026 年 4 月

IEEE Transactions on Emerging Topics in Computational Intelligence Volume 10, Issue 2, April 2026

1) 交互式和可解释数据驱动建模的人机交互框架作者：S. Hong, W. Yu, T. Chai 页数：1072 - 10832) 使用代理传输的数据流驱动动态多目标优化作者：Z. Liu, H. Wang, M. Kong, Y. Jin 页数：1084 - 10973) PMGDA: A基于偏好的多重梯度下降算法作者：X.Zhang, X.Lin,Q.Zhang页数：1098 - 11104) AGCTO: Attributed Graph Clustering With Transitive Order Convolutional Autoencoder作者：Y. Xie, J. Wa

Apple机器学习研究

2026年3月27日 00:00

无限及超越：工具使用解锁状态空间模型中的长度泛化

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作，表明 SSM 无法准确解决任何“真正的长形式”发电问题（在某种意义上我们正式定义），从而削弱了它们的主要竞争优势。然而，我们表明，可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上，我们...

Apple机器学习研究

2026年3月25日 00:00

独家自注意力

Exclusive Self Attention

我们引入了专有自注意力（XSA），这是自注意力（SA）的简单修改，可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息（从而排除自身位置的信息），从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时，XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA，并且随着序列长度的增长显示出越来越大的增益。

计算智能

2026年3月18日 04:00

IEEE 模糊系统汇刊，第 34 卷，第 3 期，2026 年 3 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 3, March 2026

1) 严格反馈系统中采用虚拟跟踪目标实现最优跟踪控制的分层模糊学习作者：Y. Yan, H. 张页数：693 - 7042) Low-Rank Matrix Factorization Induced Adaptive Divergent Graph Learning for Fuzzy Clustering作者：L. Ma, N. Zhou, Y. Du, W. Wang, K. Shi, W. PedryczPages: 705 - 7183) 模糊逻辑驱动的复值归零神经网络解决 QP 应用问题作者：Q. Zuo、H. Fan、L. Xiao、P. Tan 页数：719 - 7314) T

Transformer关键词检索结果