Transformer关键词检索结果

一劳永逸地戳破 AI 炒作泡沫

Bursting the AI Hype Bubble Once and for All

错误信息和不良研究:案例研究人们不能忽视这样一个事实:ChatGPT 等人工智能模型已经占领了互联网,并进入了互联网的每个角落。大多数人工智能应用程序对于广泛的任务(医疗保健、工程、计算机视觉、教育等)都非常有用和有益,我们没有理由不投入时间和金钱来开发它们。但生成式人工智能 (GenAI) 的情况并非如此,我将在本文中特别提到它。这包括 LLM 和 RAG,例如 ChatGPT、Claude、Gemini、Llama 和其他模型。对于我们所说的人工智能、我们使用的模型及其环境影响,必须非常具体。[1]:人们对“AI”和“ChatGPT”一词的兴趣随时间变化(过去四年)。截图由我拍摄。来源:G

IEEE 人工智能学报,第 5 卷,第 9 期,2024 年 9 月

IEEE Transactions on Artificial Intelligence, Volume 5, Issue 9, September 2024

1) 社论:从可解释的人工智能 (xAI) 到可理解的人工智能 (uAI)作者:Hussein Abbass、Keeley Crockett、Jonathan Garibaldi、Alexander Gegov、Uzay Kaymak、Joao Miguel C. Sousa页数:4310 - 43142) 通过部分图卷积网络进行不完全图学习作者:Ziyan Zhang、Bo Jiang、Jin Tang、Jinhui Tang、Bin Luo页数:4315 - 43213) 用于社会公益的对抗性机器学习:将对手重新定义为盟友作者:Shawqi Al-Maliki、Adnan Qayyum、H

主题建模您的个人数据

Topic Modelling Your Personal Data

使用传统和 Transformer 模型探索经纪人存储的个人数据继续阅读 Towards Data Science »

IEEE 认知和发展系统汇刊,第 16 卷,第 4 期,2024 年 8 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 16, Issue 4, August 2024

1) 基于多模态生理信号的用户感知多层级认知工作量估计作者:Pierluigi Vito Amadori、Yiannis Demiris页数:1212 - 12222) TR-TransGAN:用于纵向 MRI 数据集扩展的时间递归 Transformer 生成对抗网络作者:Chen-Chen Fan、Hongjun Yang、Liang Peng、Xiao-Hu Zhou、Shiqi Liu、Sheng Chen、Zeng-Guang Hou页数:1223 - 12323) 基于多标准 TD3 的深度强化学习用于分散式多机器人路径规划作者:Heqing Yin、Chang Wang、Chao

释放 Hugging Face 的力量以完成 NLP 任务

Unlocking the Power of Hugging Face for NLP Tasks

近年来,自然语言处理 (NLP) 领域取得了重大进展,这在很大程度上得益于能够理解和生成人类语言的复杂模型的发展。这场革命的关键参与者之一是 Hugging Face,这是一家开源 AI 公司,为各种 NLP 任务提供最先进的模型。Hugging Face 的 Transformers 库已成为希望实现强大 NLP 解决方案的开发人员和研究人员的首选资源。Inbound-leads-automatically-with-ai。这些模型在大量数据上进行训练,并经过微调以在特定任务上实现出色的性能。该平台还提供工具和资源,帮助用户在自己的数据集上微调这些模型,使其具有高度的通用性和用户友好性。在这

复杂与智能系统,第 10 卷,第 4 期,2024 年 8 月

Complex & Intelligent Systems, Volume 10, Issue 4, August 2024

1) 一种用于动作识别的人体骨骼关键帧选择优化方法作者:陈浩,潘悦凯,王晨武页数:4659 - 46732) 城市轨道交通网络短期起讫点流量预测:基于多源大数据的深度学习方法作者:崔红萌,司冰峰……潘伟婷页数:4675 - 46963) 用于社区检测的多约束非负矩阵分解:正交正则稀疏约束非负矩阵分解作者:陈子刚,肖奇……李晓勇页数:4697 - 47124) 使用多层时间图神经网络预测社交媒体网络中的流行趋势作者:金瑞东,刘欣,村田刚页数:4713 - 47295) 受全变分和深度去噪先验启发的混合正则化用于图像恢复作者:Hu Liang, Jiahao Zhang...Jinbo Zhu页数

Flash Attention:彻底改变变压器效率

Flash Attention: Revolutionizing Transformer Efficiency

随着 Transformer 模型的规模和复杂性不断增长,它们在计算效率和内存使用方面面临着重大挑战,尤其是在处理长序列时。Flash Attention 是一种优化技术,有望彻底改变我们在 Transformer 模型中实现和扩展注意力机制的方式。在本综合指南中,我们将深入探讨 […]The post Flash Attention:革命性地改变 Transformer 效率首先出现在 Unite.AI 上。

大规模变换器模型的有效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理中取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,有效部署它们带来了挑战,其中每个标记的计算都依赖于前面的标记。这需要细致的并行布局和内存帖子《大规模 Transformer 模型的有效部署:可扩展和低延迟推理策略》首先出现在 AI Quantum Intelligence 上。

注意力有多顺畅?

How Smooth Is Attention?

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...

关于非布尔函数在未见范围内泛化的最小度偏差

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions

我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……

在 CPU 上优化大型语言模型 (LLM):增强推理和效率的技术

Optimizing Large Language Models (LLMs) on CPUs: Techniques for Enhanced Inference and Efficiency

基于 Transformer 架构构建的大型语言模型 (LLM) 最近取得了重要的技术里程碑。这些模型在理解和生成类似于人类的写作方面的卓越技能对各种人工智能 (AI) 应用产生了重大影响。尽管这些模型运行良好,但文章《在 CPU 上优化大型语言模型 (LLM):增强推理和效率的技术》首先出现在 AI Quantum Intelligence 上。

使用多样化建模单元增强基于 CTC 的语音识别

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……

使用 Amazon SageMaker 上经过微调的嵌入模型提高 RAG 准确性

Improve RAG accuracy with fine-tuned embedding models on Amazon SageMaker

这篇文章演示了如何使用 Amazon SageMaker 微调 Sentence Transformer 嵌入模型并将其部署到 Amazon SageMaker Endpoint。本文中的代码和更多示例可在 GitHub 存储库中找到。

数据机器 #256

Data Machina #256

状态空间模型 (SSM) 是 Transformers 的替代品吗?Mamba-2。Chimera SSM 时间序列。Audio Mamba。Sonic SSM Gen Voice。mamba.np。OSS Qwen-2 SOTA ML。OSS LeRobot SOTA 机器人。思想缓冲区。

数据机器 #255

Data Machina #255

AI-RAG 和图表的新趋势。GRAG。GNN-RAG。属性图。统一 RAG+LangGraph。GenAI 思维模式。Transformer Agents 2.0。Falcon 2.0 11B LLMS/VLMS。ToonCrafter。MusePose。ColdFusion。SymbCoT。

客座文章:ChatGPT 对教育的益处和风险

GUEST POST: The Benefits and Risks of ChatGPT for Education

21 世纪的快速技术进步影响了许多领域,包括教育。新的人工智能工具 ChatGPT(生成式预训练 Transformer)拥有超过 1 亿用户,自 2022 年 11 月发布以来,在学生、教师和研究人员中获得了极大的欢迎……

在使用 ChatGPT 进行数学作业帮助之前,请了解这一点

Before you use ChatGPT for Math Homework Help Know this

在当今数字化驱动的世界中,GPT(生成式预训练 Transformer)等语言模型的能力让许多人眼花缭乱,因为它们能够生成几乎像人类一样的文本。从写论文到创作诗歌,这些模型展示了非凡的语言能力。然而,重要的是要记住,并非所有任务都在它们的掌控范围内。一个领域 […] 文章“在使用 ChatGPT 进行数学作业帮助之前请了解这一点”首先出现在“紧急作业博客”上。

UNN 科学家改进了用于诊断衰老速度的神经网络

Нейросеть для диагностики скорости старения усовершенствовали учёные ННГУ

罗巴切夫斯基大学的科学家改进了用于诊断衰老速度的神经网络。新的免疫时钟模型被称为SImAge(小免疫年龄)。它建立在 FT-Transformer 深度神经网络的基础上。