Why Clustering Fails. And how to fix it | by Ryan Feather | Jul, 2024
以及如何解决它 您遇到了数据解释问题,因此您尝试了聚类。现在您遇到了聚类解释问题!人们怀疑数据中可能存在模式。合理的是,希望通过无监督学习添加一些结构会带来一些见解。集群是查找的首选工具 帖子为什么聚类会失败。以及如何解决它 | 作者 Ryan Feather | 2024 年 7 月首先出现在 AI Quantum Intelligence 上。
Teens Don’t Trust Ads for Financial Aid. Why California Is Polishing Its Pitch
即使去年加州高中毕业生申请大学助学金的人数创下了纪录,仍有超过四分之一的学生没有申请,白白浪费了大笔资金。现在,负责监督学生助学金和奖学金的州机构即将开展一项新的活动,以说服更多学生及其父母 [...]
How to regularize your regression
制药应用中的一系列回归实例。我们能否从类似的特定领域数据中学习如何设置正则化参数 \(\lambda\)?概述。实际因变量 \(y\)和特征向量 \(X\)之间最简单的关系可能是线性模型 \(y = \beta X\)。给定一些由特征和因变量对 \((X_1,y_1),(X_2,y_2),\dots,(X_m,y_m)\)组成的训练示例或数据点,我们希望学习 \(\beta\),在给定未见过的示例的特征 \(X’\)的情况下,哪个会给出最佳预测 \(y’\)。将线性模型 \(\beta\)拟合到数据点的过程称为线性回归。这种简单而有效的模型在生物、行为和社会科学、环境研究和金融预测等领域有着广
Cheryl Kodjo named next University Health Service director
作为一名经验丰富的临床医生和领导者,Kodjo 将负责监督学生的初级保健服务以及校园社区的健康和保健计划。Cheryl Kodjo 被任命为下一任大学健康服务主任一文首先出现在新闻中心。
Recapping the FAFSA Week of Action: Thanks to All Who Took a #FAFSAFastBreak!
上周五,教育部的 #FAFSAFastBreak 活动结束了。本周的行动是一项全国性活动,旨在推动高中毕业生和返校大学生提交 FAFSA 申请。我们很高兴收到来自高中辅导员、校长、督学、课后项目、家长团体、非营利组织以及其他地方和州教育机构的 200 多项承诺。继续阅读文章《回顾 FAFSA 行动周:感谢所有参加 #FAFSAFastBreak 的人!》首先出现在 ED.gov 博客上。
A Guide Large Language Model LLM
大型语言模型 (LLM):2024 年完整指南 您需要了解的有关 LLM 的一切 索引表 简介 什么是大型语言模型? 基本因素 LLM 的流行示例 LLM 的构建块 LLM 模型是如何训练的? LLM 依靠监督学习还是无监督学习 训练 LLM LLM 的兴起 流行用例 […]
What Are Support Vector Machines (SVM) In Machine Learning?
为什么重要:支持向量机 (SVM) 是一类基于统计学习理论的监督学习模型。
LinkBERT: Improving Language Model Training with Document Link
语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预
LinkBERT: Improving Language Model Training with Document Link
语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预
Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监
Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web
这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监
The Word is Mightier than the Label: Learning without Pointillistic Labels using Data Programming
我们分析了 DP 背后的数学基础,并通过将其应用于两个现实世界的文本分类任务来展示它的强大功能。此外,我们将 DP 与传统上在数据稀疏设置中应用的点画主动和半监督学习技术进行了比较。
Stanford AI Lab Papers at ICCV 2021
国际计算机视觉会议 (ICCV 2021) 将于下周以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表GLoRIA:用于标签高效医学图像识别的多模态全局-局部表示学习框架作者:Mars Huang联系方式:mschuang@stanford.edu关键词:医学图像、自监督学习、多模态融合通过点-体素扩散生成和完成 3D 形状作者:Linqi Zhou、Yilun Du、Jiajun Wu联系方式:linqizhou@stanford.edu链接:论文 | 视频 |网站关键词:扩散、形
Stanford AI Lab Papers at ICCV 2021
国际计算机视觉会议 (ICCV 2021) 将于下周以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表GLoRIA:用于标签高效医学图像识别的多模态全局-局部表示学习框架作者:Mars Huang联系方式:mschuang@stanford.edu关键词:医学图像、自监督学习、多模态融合通过点-体素扩散生成和完成 3D 形状作者:Linqi Zhou、Yilun Du、Jiajun Wu联系方式:linqizhou@stanford.edu链接:论文 | 视频 |网站关键词:扩散、形
#206 – Ishan Misra: Self-Supervised Deep Learning in Computer Vision
Ishan Misra 是 FAIR 的一名研究科学家,致力于自我监督视觉学习。请查看我们的赞助商来支持此播客:- Onnit:https://lexfridman.com/onnit 可享受高达 10% 的折扣- The Information:https://theinformation.com/lex 可享受首月 75% 的折扣- Grammarly:https://grammarly.com/lex 可享受 20% 的高级折扣- Athletic Greens:https://athleticgreens.com/lex 并使用代码 LEX 可获得 1 个月的鱼油剧集链接:Ishan
摘要:神经网络(NN)擅长解决监督学习领域的一些复杂的非线性问题。这些网络的一个突出应用是图像分类。过去几十年的大量改进提高了这些图像分类器的能力。然而,神经网络仍然是解决图像分类和其他复杂任务的黑匣子。进行的许多实验研究了神经网络如何解决这些复杂的问题。本文拆解了特定材料分类器的神经网络解决方案,结合了卷积层。使用多种技术来研究该问题的解决方案。这些技术专门关注哪些像素对神经网络做出的决策有贡献,以及每个神经元对决策的贡献。本次调查的目的是了解神经网络的决策过程,并利用这些知识对材料分类算法提出改进建议。