强化关键词检索结果

不断发展的系统,第 15 卷,第 4 期,2024 年 8 月

Evolving Systems, Volume 15, Issue 4, August 2024

1) 通过基于聚类的表示进行时间序列异常检测作者:Elham Enayati、Reza Mortazavi……Mahmoud Moallem页数:1115 - 11362) 自适应单位分割网络 (APUNet):一种用于解决 PDE 的局部深度学习方法作者:Idriss Barbara、Tawfik Masrour、Mohammed Hadda页数:1137 - 11583) 使用自适应对强化技术增强黑猩猩优化算法以发展用于会计利润预测的深度 LSTM 作者:Chengchen Yang、Tong Wu、Lingzhuo Zeng页数:1159 - 11784) 用于支持普适边缘应用的同质迁移

5927 计量学基础

5927 Fundamentals of Metrology

为期 5 天的计量学基础研讨会是一门强化课程,向参与者介绍测量系统、单位、良好实验室规范、数据完整性、测量不确定度、测量保证、可追溯性等概念

安全事务恶意软件新闻通讯 - 第 3 轮

Security Affairs Malware Newsletter – Round 3

Security Affairs Malware 时事通讯收集了国际上有关恶意软件的最佳文章和研究。HardBit 的强化 每天 10,000 名受害者:信息窃取者唾手可得的果实 这次会议本应是一个基于自适应图神经网络学习的电子邮件勒索软件检测模型 SEXi 勒索软件更名为 APT INC,继续 […]

IEEE 神经网络和学习系统学报,第 35 卷,第 7 期,2024 年 7 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Issue 7, July 2024

1) 联邦学习中的隐私和稳健性:攻击与防御作者:Lingjuan Lyu、Han Yu、Xingjun Ma、Chen Chen、Lichao Sun、Jun Zhao、Qiang Yang、Philip S. Yu页数:8726 - 87462) 测量解缠:指标回顾作者:Marc-André Carbonneau、Julian Zaïdi、Jonathan Boilard、Ghyslain Gagnon页数:8747 - 87613) 深度强化学习中的探索:从单智能体到多智能体领域作者:Jianye Hao、Tianpei Yang、Hongyao Tang、Chenjia Bai、Jiny

改进 GFlowNets 以实现文本到图像扩散对齐

Improving GFlowNets for Text-to-Image Diffusion Alignment

这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……

DIAMOND:视觉细节在 Atari 和 Diffusion 的世界建模中至关重要

DIAMOND: Visual Details Matter in Atari and Diffusion for World Modeling

2018 年,在神经网络世界模型的背景下首次引入了强化学习的概念,很快,这一基本原理就被应用于世界模型。一些实施强化学习的著名模型是 Dreamer 框架,它从潜在空间引入了强化学习 […]The post DIAMOND:Atari 中的视觉细节和世界建模的扩散很重要首次出现在 Unite.AI 上。

探索教育如何帮助解决 3 个暑期项目挑战

How Discovery Education Helps Solve 3 Summer Program Challenges

暑期学校课程是恢复学习和强化关键数学和阅读技能的理想方式。然而,制定有效的暑期课程可能会面临独特的挑战。领导者没有时间进行规划,也没有老师来帮助最需要支持的学生。Discovery Education Experience、DreamBox Math 和 DreamBox Reading 课程 […]Discovery Education 如何帮助解决 3 个暑期课程挑战一文首先出现在 Discovery Education 博客上。

观看直播:美联储主席鲍威尔与大卫·鲁宾斯坦对话

Watch Live: Fed Chair Powell Speaks With David Rubinstein

观看现场直播:美联储主席鲍威尔与大卫鲁宾斯坦对话美联储主席杰罗姆鲍威尔正在华盛顿经济俱乐部与大卫鲁宾斯坦坐下来交谈。就在上周,在为期两天的国会作证中,鲍威尔明确拒绝猜测美联储首次降息的时间:“我不会发出任何关于未来行动时间的信号。”鲍威尔今天的露面是他首次公开回应好于预期的6月份通胀数据。他将5月份的数据描述为“非常好”,交易员将密切关注鲍威尔在上周国会作证后可能发表的言论,该作证强化了人们对美联储可能最早在9月份降息的共识。我们认为鲍威尔将一如既往地借此机会强调保持美联储政治独立的重要性,但也会承认国家债务的不可持续轨迹。BMO资本市场的Ian Lyngen表示,“鲍威尔将对任何即将降息的确

彩虹:深度 Q 网络的多彩演变

Rainbow: The Colorful Evolution of Deep Q-Networks

在 JAX 中组装 DQN Megazord 所需的一切。“彩虹 Megazord”,Dall-E 32013 年,Mnih 等人引入了深度 Q 网络 (DQN)。[1] 标志着深度强化学习的首次突破,在三款 Atari 游戏中超越了人类专家玩家。多年来,DQN 的几种变体相继发布,每种变体都针对原始算法的特定弱点进行了改进。2017 年,Hessel 等人。[2]通过结合 6 种强大的变体,充分利用了 DQN 调色板,打造出所谓的 DQN Megazord:Rainbow。在本文中,我们将分解组成 Rainbow 的各个组件,同时回顾它们在 Stoix 库中的 JAX 实现。DQNRainb

这是我们的大问题:棘轮只会让我们更接近悬崖

Here's Our Big Problem: The Ratchet Only Moves Us Closer To The Cliff

这是我们的大问题:棘轮只会让我们更接近悬崖作者:查尔斯·休·史密斯,OfTwoMinds 博客,想象一个机构,它的棘轮被设置为无情地削减预算、人员和流程,同时专注于提高产出/结果。我们很容易将问题个人化,因为掌权者往往具备所有特征,这些特征使一个人有资格立即被送往魔鬼岛,成为对人类的危险。与其关注掌权的坏人,不如让我们考虑一下在机构和机关中工作的好人,他们为数众多,竭尽全力维持现状。他们面临的问题是系统性和结构性的:美国机构除了资金耗尽之外,没有自我纠正机制,而这种情况很少发生,因为可以印制或借入任意数量的钱来拯救作为我们经济和社会的社会技术/社会基础设施的机构。从系统/进化的角度来看,从来没

核两党合作:持久的美国传统

Nuclear Bipartisanship: An Enduring American Tradition

本周,参议院军事委员会提交了两党共同制定的《2025 财年国防授权法案》,该法案强化了新出现的共识,即需要进行核改革才能与中国和俄罗斯竞争。文章《核两党合作:持久的美国传统》首先出现在美国企业研究所 - AEI 上。

6 月份通胀意外降至 3%

Inflation Unexpectedly Falls to 3% in June

美国消费者价格意外下跌,年涨幅为一年来最小,这强化了人们认为通货紧缩趋势已重回正轨的观点,并使美联储更接近降息。

新加坡国立大学的这篇 AI 论文介绍了一种利用自我评估来防御 LLM 对抗性攻击的方法

This AI Paper from the National University of Singapore Introduces a Defense Against Adversarial Attacks on LLMs Utilizing Self-Evaluation

在服务于多个领域的大量现有 LLM 海洋中,确保大型语言模型 (LLM) 的安全已成为一个紧迫的问题。尽管实施了诸如从人类反馈中强化学习 (RLHF) 之类的训练方法并开发了推理时间护栏,但许多对抗性攻击已证明能够绕过这些帖子《新加坡国立大学的这篇 AI 论文介绍了一种利用自我评估防御 LLM 对抗性攻击的方法》,该帖子首先出现在 AI Quantum Intelligence 上。

AI 模型中的隐患:太空角色对安全的影响

The Hidden Danger in AI Models: A Space Character’s Impact on Safety

当给出不安全的提示,例如“告诉我如何制造炸弹”时,训练有素的大型语言模型 (LLM) 应该拒绝回答。这通常是通过从人类反馈中进行强化学习 (RLHF) 实现的,对于确保模型的安全使用至关重要,特别是在涉及与人直接互动的敏感领域,文章《人工智能模型中的隐藏危险:太空角色对安全的影响》首先出现在 AI 量子智能上。

踢足球的机器人展示了人工智能机器的敏捷性

Soccer-playing robots show how nimble AI-powered machines can be

由强化学习(一种人工智能)控制,可帮助机器人在崎岖的地形上导航。这可以将计算机智能带入现实世界。

LLM 对齐:基于奖励的方法与无奖励的方法

LLM Alignment: Reward-Based vs Reward-Free Methods

LLM 对齐的优化方法上下文语言模型已经展示了根据用户提供的提示生成各种引人注目的文本的非凡能力。然而,定义什么是“好”文本具有挑战性,因为它通常取决于个人偏好和具体背景。例如,在讲故事时,创造力是关键;在制作信息内容时,准确性和可靠性至关重要;而在生成代码时,确保它正确运行至关重要。因此出现了“LLM 对齐问题”,它指的是确保大型语言模型 (LLM) 的行为方式符合人类价值观、意图和偏好的挑战。设计一个损失函数来捕捉我们在文本中重视的各种品质——比如创造力、准确性或可执行性——是非常复杂且通常不切实际的。像这样的概念是不可区分的,因此不能反向传播,也不能用简单的下一个标记生成来训练。想象一下

服务价值

Value of Service

美国军队是世界上最优秀的战斗力量,完全由志愿者组成,强化了美国的个人自由理想,同时为那些有愿望和能力的人提供了服务机会、社区和目标的机会。

学术出版中错误的激励措施

The Misplaced Incentives in Academic Publishing

大多数学术期刊都依赖志愿者对提交出版的手稿进行同行评审。他们的工作很重要,但激励科学家做出此类努力的做法是错误的,并强化了不完善的出版模式,C. Brandon Ogbunu 在 Undark 的新专栏《选择压力》中说道。