Transformer关键词检索结果

Mamba-3 – 语言建模的下一步发展

Mamba-3 – the next evolution in language modeling

Mamba-3 - 状态空间模型,重新定义人工智能如何思考、学习和理解语言。通过改进上下文跟踪、信息处理和响应生成,Mamba-3 为性能和推理速度树立了超越传统 Transformer 模型的新标准。

在固定预算下为法学硕士选择最佳模型大小和数据集大小

Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs

使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。

当变形金刚歌唱时:采用 SpectralKD 进行基于文本的知识蒸馏

When Transformers Sing: Adapting SpectralKD for Text-Based Knowledge Distillation

探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing:采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。

将推荐变压器扩展到十亿个参数

Scaling Recommender Transformers to a Billion Parameters

如何实现新一代 Transformer 推荐器将 Recommender Transformers 扩展至十亿个参数后首次出现在 Towards Data Science 上。

IEEE 模糊系统汇刊,第 33 卷,第 10 期,2025 年 10 月

IEEE Transactions on Fuzzy Systems, Volume 33, Issue 10, October 2025

1) MARSHAL: 基于多属性遗憾理论和语义感知概率权重的犹豫语言决策作者:Taniya Seth, Pranab K. Muhuri 页数:3381 - 33952) PerCIST:基于感知计算的糖尿病非临床诊断决策支持系统作者:Taniya Seth, Priyanka Mehra, Pranab K. Muhuri 页数: 3396 - 34093) USTformer: 基于多粒度注意力的 Transformer 实现不确定时空知识图的知识补全作者: 张晓文, 李岩, 宗敏 页数: 3410 - 34194) 改进的区间 II 型模糊广义 MPC 方法 城市生活垃圾焚烧过程的炉温