Sequence Feature Extraction for Malware Family Analysis via Graph Neural Network
恶意软件对我们的设备和生活造成了很大的危害。我们迫切希望了解恶意软件的行为及其造成的威胁。恶意软件的大多数记录文件都是可变长度的、带有时间戳的基于文本的文件,例如事件日志数据和动态分析配置文件。利用时间戳,我们可以将这些数据分类为基于序列的数据,以便进行后续分析。然而,处理可变长度的基于文本的序列很困难。此外,与自然语言文本数据不同,信息安全中的大多数序列数据都具有特定的属性和结构,例如循环、重复调用、噪声等。为了深入分析 API 调用序列及其结构,我们使用图来表示序列,这可以进一步研究信息和结构,例如马尔可夫模型。因此,我们设计并实现了一个注意力感知图神经网络 (AWGCN) 来分析 API
How to build a working AI only using synthetic data in just 5 minutes
合成数据在人工智能中日益流行。它将使人工智能更便宜、更好、更少偏见。它也非常容易获得和使用。在很短的时间内,它已经从一项实验技术变成了某种东西,我会毫不犹豫地将其用于生产人工智能解决方案。为了说明这一点,我将构建一个可以区分苹果和香蕉之间差异的人工智能。我将只使用另一个人工智能生成的两个类别的图像——在本例中,使用 DALL-E Mini。苹果或香蕉识别器我将仅使用易于访问的免费 AutoAI 工具构建一个图像分类器。生成数据我们需要大约 30 张每个标签(香蕉和苹果)的图像。我们将使用 DALL-E Mini,这是 NVIDIA 文本到图像模型 DALL-E 2 的开源版本。要生成图像,您可
Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
Selective Classification Can Magnify Disparities Across Groups
选择性分类是一种在错误代价高昂的环境中部署模型的有效方法,即当模型对预测不确定时,允许它们“弃权”。例如,在医学领域,模型错误可能会产生生死攸关的后果,但弃权可以通过退到医生那里,然后由医生做出诊断来轻松处理。在从视觉 123 到 NLP 45 的一系列应用中,即使是简单的选择性分类器,仅依赖于模型逻辑,也会通过弃权而经常显著提高准确性。这使得选择性分类成为 ML 从业者 67 的有力工具。然而,在我们最近的 ICLR 论文中,我们发现,尽管选择性分类可以可靠地提高平均准确率,但它可能无法提高甚至损害某些数据子群体的准确率。作为一个激励人心的例子,考虑通过胸部 X 光片诊断胸腔积液或肺部积液的
Selective Classification Can Magnify Disparities Across Groups
选择性分类是一种在错误代价高昂的环境中部署模型的有效方法,即当模型对预测不确定时,允许它们“弃权”。例如,在医学领域,模型错误可能会造成生死攸关的后果,但弃权问题可以通过让医生做出诊断来轻松处理。在从视觉 123 到 NLP 45 的一系列应用中,即使是简单的选择性分类器,仅依赖于模型逻辑,也会通过弃权而经常显著提高准确性。这使得选择性分类成为 ML 从业者 67 的有力工具。然而,在我们最近的 ICLR 论文中,我们发现尽管选择性分类可以可靠地提高平均准确率,但它可能无法提高甚至损害某些数据子群体的准确率。作为一个激励人心的例子,考虑通过胸部 X 光片诊断胸腔积液或肺部积液的任务。胸腔积液通
摘要:神经网络(NN)擅长解决监督学习领域的一些复杂的非线性问题。这些网络的一个突出应用是图像分类。过去几十年的大量改进提高了这些图像分类器的能力。然而,神经网络仍然是解决图像分类和其他复杂任务的黑匣子。进行的许多实验研究了神经网络如何解决这些复杂的问题。本文拆解了特定材料分类器的神经网络解决方案,结合了卷积层。使用多种技术来研究该问题的解决方案。这些技术专门关注哪些像素对神经网络做出的决策有贡献,以及每个神经元对决策的贡献。本次调查的目的是了解神经网络的决策过程,并利用这些知识对材料分类算法提出改进建议。
摘要:神经网络(NN)擅长解决监督学习领域的一些复杂的非线性问题。这些网络的一个突出应用是图像分类。过去几十年的大量改进提高了这些图像分类器的能力。然而,神经网络仍然是解决图像分类和其他复杂任务的黑匣子。进行的许多实验研究了神经网络如何解决这些复杂的问题。本文拆解了特定材料分类器的神经网络解决方案,结合了卷积层。使用多种技术来研究该问题的解决方案。这些技术专门关注哪些像素对神经网络做出的决策有贡献,以及每个神经元对决策的贡献。本次调查的目的是了解神经网络的决策过程,并利用这些知识对材料分类算法提出改进建议。
Ученые разработали систему для исследования ментальных состояний человека по ЭЭГ
开发人员创建了软件模块“Cognigraph-BCI”和“Cognigraph.BCI-PRO”,使您能够直观地、有效地创建、编辑和运行脑机接口(BCI)识别心理状态的算法 -先进的信号处理方法和强大的机器学习分类器现在可以在单个软件包中使用,系统用户不再需要知道如何编程。
Marijuana and The Risk of Stroke
WebMD这样的消息来源会让您相信吸烟锅会大大增加中风的风险。让我们看看诸如医疗保健分类器之类的资源对此有何考虑。 @Drtiff_邮政大麻和中风的风险首先出现在附带的经济学家上。
Stop Sitting On All That Data & Do Something With It ⚙️
请将您的数据提供给机器。人工智能正在将数据需求提升到一个新的水平。📈假设您可以访问 5,000 张被正确诊断患有某种特定类型癌症(A 型)的患者的 X 射线图像。今天,使用这些数据来训练机器人在新患者中检测出这种癌症出奇地容易。要构建这个机器人,您需要构建一个由神经网络驱动的图像分类器,而 5,000 张 X 射线图像将是您的训练数据集。您将再添加 5,000 张没有癌症的患者的 X 射线,这样分类器就会同时拥有健康和受影响的 X 射线的示例。本质上,这个图像分类器机器人会使用图像梯度在像素级别寻找常见模式,并使用一种广泛使用的机器学习算法(称为反向传播)将该模式与 A 型癌症相关联。请注意,
Healthcare Triage: Medicaid And The Opioid Epidemic – Correlation is not Causation
最近,威斯康星州的罗恩·约翰逊(Ron Johnson)(R)对奥巴马医改的医疗补助扩张是否引起了美国阿片类药物危机的调查。医疗保健分类器已经研究了证据,我们认为这是一个可疑的说法。这一集是从奥斯汀专栏的,我为结果而写的。与来源和[…]医疗后分三角的链接:医疗补助和阿片类药物流行 - 相关性并非首次出现在偶然的经济学家上。
Healthcare Triage: Hay Fever and Allergies Can Lower Student Test Scores
健康问题可能会以惊人的方式对人们的生活产生负面影响。最近的研究表明,患有过敏的学生在高花粉计数日期进行测试时可能会在测试中表现较差。那么,我们如何帮助所有正在努力进入补救课程的学生呢?医疗保健分类器具有[…]医疗后分类:花粉症和过敏可以降低学生考试成绩,首先出现在偶然的经济学家上。
Healthcare Triage: Flint, Water, and the Dangers of Lead
眼睛一直集中在密歇根州的弗林特,政府失败导致该市饮用水中的铅水平升高。但是,直到相机离开城镇后很长时间,对弗林特居民,尤其是其孩子的影响可能才出现。这就是本周的医疗保健分类。这是从[…]后的医疗保健分类器中改编而来的:弗林特,水和铅的危险首先出现在偶然的经济学家身上。
Healthcare Triage: How Many Calories Are in Your Thanksgiving Dinner?
是本周在美国的感恩节。去年,我们谈到了土耳其使您困倦的神话。我认为土耳其没有什么特别的会让你疲倦。但是,我们指出,一顿超级餐和过量的饮酒可能会让您想小睡。但是,邮政医疗保健分类器的热量如何:您的感恩节晚餐有多少卡路里?首次出现在偶然的经济学家中。
Using Feature Selection Methods in Text Classification
在文本分类中,特征选择是选择训练集术语的特定子集并仅在分类算法中使用它们的过程。特征选择过程发生在分类器训练之前。更新:Datumbox 机器学习框架现在是开源的,可以免费下载。检查 […]