transformer关键词检索结果

RT-2:新模型将视觉和语言转化为行动

RT-2: New model translates vision and language into action

Robotic Transformer 2 (RT-2) 是一种新颖的视觉-语言-动作 (VLA) 模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

IEEE 神经网络和学习系统学报,第 35 卷,第 6 期,2024 年 6 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Issue 6, June 2024

1) Editorial Special Issue on Explainable and Generalizable Deep Learning for Medical ImagingAuthor(s): Tianming Liu, Dajiang Zhu, Fei Wang, Islem Rekik, Xia Hu, Dinggang ShenPages: 7271 - 72742) Adversarial Learning Based Node-Edge Graph Attention Networks for Autism Spectrum Disorder Identificatio

IEEE 计算智能新兴主题汇刊,第 8 卷,第 3 期,2024 年 6 月

IEEE Transactions on Emerging Topics in Computational Intelligence, Volume 8, Number 3, June 2024

1) 深度学习在 B 型超声分割中的进展:综合综述作者:Mohammed Yusuf Ansari、Iffa Afsa Changaai Mangalote、Pramod Kumar Meher、Omar Aboumarzouk、Abdulla Al-Ansari、Osama Halabi、Sarada Prasad Dakua页数:2126 - 21492) 机器反学习:解决方案和挑战作者:Jie Xu、Zihan Wu、Cong Wang、Xiaohua Jia页数:2150 - 21683) MuralDiff:基于大规模预训练的古代壁画修复扩散作者:Zishan Xu、Xiaofeng

关于人工智能和新学习前景的讨论

A chat about AI and the new learning landscape

照片由 Levart_Photographer 在 Unsplash 上拍摄过去几周,你可能已经看到过一些关于人工智能 (AI) 的有趣、吸引人或令人恐惧的新闻,比如 ChatGPT、Claude、LLaMA 和其他界面。你可能听过播客解释或哀叹即将取代旧世界的革命性新世界。目前,对我来说,这一切仍然相当令人困惑,不知道它将如何影响我的日常生活,但我很好奇,也非常谨慎乐观。有一件事是相当肯定的:我们孩子的生活将受到人工智能的巨大影响——而且是以我们无法预测的方式。在教育领域,两大巨头——可汗学院和 Duolingo——上周宣布,他们加入了 ChatGPT 的行列,并被授予早期开发和测试想法的权

哲学家与变形金刚:神经网络模仿著名认知科学家

Philosophers vs Transformers: Neural net impersonates a famous cognitive scientist

计算机能思考吗?AI 模型能有意识吗?这些和类似的问题经常出现在有关自然语言模型 GPT-3、LAMDA 和其他 transformer 取得的最新 AI 进展的讨论中。尽管如此,它们仍然存在争议,处于悖论的边缘,因为关于大脑如何工作以及思考意味着什么通常存在许多隐藏的假设和误解。没有其他办法,只能明确揭示这些假设,然后探索如何让机器复制人类的信息处理。

#318 – 尼克·莱恩:生命起源、进化、外星人、生物学和意识

#318 – Nick Lane: Origin of Life, Evolution, Aliens, Biology, and Consciousness

尼克·莱恩 (Nick Lane) 是伦敦大学学院的生物化学家,著有《变形金刚》、《重要问题》以及许多其他关于生物学、化学和生命的精彩书籍。请查看我们的赞助商来支持此播客:- Backbone:https://playbackbone.com/lex 获得订购福利- Notion:https://notion.com- BetterHelp:https://betterhelp.com/lex 获得 10% 折扣- Blinkist:https://blinkist.com/lex 获得 25% 的高级折扣 EPISODE LINKS:Nick 的网站:https://nick-lane.ne

视觉变换器是否像卷积神经网络一样看?

Do Vision Transformers See Like Convolutional Neural Networks?

到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈

斯坦福 AI 实验室论文在 ICCV 2021 上发表

Stanford AI Lab Papers at ICCV 2021

国际计算机视觉会议 (ICCV 2021) 将于下周以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表GLoRIA:用于标签高效医学图像识别的多模态全局-局部表示学习框架作者:Mars Huang联系方式:mschuang@stanford.edu关键词:医学图像、自监督学习、多模态融合通过点-体素扩散生成和完成 3D 形状作者:Linqi Zhou、Yilun Du、Jiajun Wu联系方式:linqizhou@stanford.edu链接:论文 | 视频 |网站关键词:扩散、形

斯坦福 AI 实验室在 ICCV 2021 上的论文

Stanford AI Lab Papers at ICCV 2021

国际计算机视觉会议 (ICCV 2021) 将于下周以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表GLoRIA:用于标签高效医学图像识别的多模态全局-局部表示学习框架作者:Mars Huang联系方式:mschuang@stanford.edu关键词:医学图像、自监督学习、多模态融合通过点-体素扩散生成和完成 3D 形状作者:Linqi Zhou、Yilun Du、Jiajun Wu联系方式:linqizhou@stanford.edu链接:论文 | 视频 |网站关键词:扩散、形

语音识别:对不同深度学习方法的回顾

Speech Recognition: a review of the different deep learning approaches

探索最流行的深度学习架构以执行自动语音识别 (ASR)。从循环神经网络到卷积和 transformers。

完整的 Hugging Face 教程:如何构建和训练视觉转换器

A complete Hugging Face tutorial: how to build and train a vision transformer

通过数据集和 transformers 库的动手教程了解 Hugging Face 生态系统。探索如何微调 Vision Transformer (ViT)

Transformers 解释:了解 GPT-3、BERT 和 T5 背后的模型

Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5

你知道那句话吗?当你有一把锤子时,所有东西看起来都像钉子。在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们已经超出了……呃,算了吧。如果

多头自注意力机制为何有效:数学、直觉和 10+1 个隐藏的见解

Why multi-head self attention works: math, intuitions and 10+1 hidden insights

通过 10+1 个隐藏的见解和观察,了解有关臭名昭著的 Transformer 的注意力机制的所有知识

从头开始​​在 JAX 中构建 Transformer:如何编写和训练自己的模型

Build a Transformer in JAX from scratch: how to write and train your own models

如何使用 JAX、Haiku 和 Optax 开发和训练 Transformer。通过示例学习如何在 JAX 中编写深度学习模型

理解 SoTA 语言模型 (BERT、RoBERTA、ALBERT、ELECTRA)

Understanding SoTA Language Models (BERT, RoBERTA, ALBERT, ELECTRA)

大家好,现在有大量的语言模型!其中许多都有自己独特的学习“自监督”语言表示的方式,可供其他下游任务使用。在本文中,我决定总结当前的趋势并分享一些关键见解,以将所有这些新方法粘合在一起。😃(幻灯片来源:Delvin 等人,斯坦福 CS224n)问题:上下文无关/原子词表示我们在上一篇文章中从上下文无关方法开始,例如 word2vec、GloVE 嵌入。这些方法的缺点是它们不考虑句法上下文。例如“开立银行账户”与“在河岸上”。单词 bank 的含义取决于单词所处的上下文。解决方案 #1:上下文单词表示借助 ELMo,社区开始构建前向(从左到右)和后向(从右到左)序列语言模型,并使用从这两个模型(连

了解用于深度学习的 einsum:从头开始实现具有多头自注意力机制的 Transformer

Understanding einsum for Deep learning: implement a transformer with multi-head self-attention from scratch

通过编写自定义多头自注意力单元和转换器块来了解 einsum 符号和 einops

10 分钟内了解 Vision Transformer (ViT) 的工作原理:一张图像价值 16x16 个字

How the Vision Transformer (ViT) works in 10 minutes: an image is worth 16x16 words

在本文中,您将了解视觉转换器如何解决图像分类问题。我们提炼了您需要掌握的所有重要细节,以及它在有足够的数据进行预训练的情况下可以很好地工作的原因。

Transformers 在深度学习和 NLP 中的工作原理:直观介绍

How Transformers work in deep learning and NLP: an intuitive introduction

对 Transformers 及其在机器翻译中的使用方式的直观理解。在逐一分析了自注意力和位置编码等所有子组件之后,我们解释了编码器和解码器背后的原理以及 Transformers 为何如此有效