Transformer关键词检索结果

Qudata

2025年10月30日 09:00

Mamba-3 – 语言建模的下一步发展

Mamba-3 – the next evolution in language modeling

Mamba-3 - 状态空间模型，重新定义人工智能如何思考、学习和理解语言。通过改进上下文跟踪、信息处理和响应生成，Mamba-3 为性能和推理速度树立了超越传统 Transformer 模型的新标准。

走向数据科学

2025年10月24日 14:00

在固定预算下为法学硕士选择最佳模型大小和数据集大小

Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs

使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。

走向数据科学

2025年10月23日 17:12

当变形金刚歌唱时：采用 SpectralKD 进行基于文本的知识蒸馏

When Transformers Sing: Adapting SpectralKD for Text-Based Knowledge Distillation

探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing：采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。

走向数据科学

2025年10月21日 19:19

将推荐变压器扩展到十亿个参数

Scaling Recommender Transformers to a Billion Parameters

如何实现新一代 Transformer 推荐器将 Recommender Transformers 扩展至十亿个参数后首次出现在 Towards Data Science 上。

计算智能

2025年10月13日 10:42

IEEE 模糊系统汇刊，第 33 卷，第 10 期，2025 年 10 月

IEEE Transactions on Fuzzy Systems, Volume 33, Issue 10, October 2025

1) MARSHAL: 基于多属性遗憾理论和语义感知概率权重的犹豫语言决策作者：Taniya Seth, Pranab K. Muhuri 页数：3381 - 33952) PerCIST：基于感知计算的糖尿病非临床诊断决策支持系统作者：Taniya Seth, Priyanka Mehra, Pranab K. Muhuri 页数: 3396 - 34093) USTformer: 基于多粒度注意力的 Transformer 实现不确定时空知识图的知识补全作者: 张晓文, 李岩, 宗敏页数: 3410 - 34194) 改进的区间 II 型模糊广义 MPC 方法城市生活垃圾焚烧过程的炉温

1