Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
增强大型语言模型 (LLM) 的多步推理能力一直是一个持续的挑战。最近,验证已显示出通过评估生成的输出来提高解决方案一致性的希望。然而,当前的验证方法存在采样效率低下的问题,需要大量样本才能达到令人满意的性能。此外,训练有效的验证者通常依赖于广泛的过程监督,而这需要高昂的成本。在本文中,我们通过引入一种基于 Twisted 的新型验证方法来克服这些限制...
NumPy for Simulating Random Processes and Monte Carlo Methods
了解如何使用 NumPy 进行稳健的计算模拟。
Temporal-Difference Learning: Combining Dynamic Programming and Monte Carlo Methods for…
RL 的里程碑:Q 学习和双 Q 学习继续阅读 Towards Data Science »
摘要:马尔可夫链蒙特卡罗 (MCMC) 方法广泛应用于水文学和其他领域,用于贝叶斯框架中的后验推理。正确构造的 MCMC 采样器可以保证收敛到正确的极限分布,但收敛可能非常慢。虽然大多数研究的重点是改进用于在马尔可夫链中生成试验移动的提案分布,但这项工作的重点是有效地为基于群体的 MCMC 采样器找到初始群体,以加速收敛。四个案例研究,包括两个水文模型,被用来证明使用多级单链接隐式过滤随机全局优化来初始化种群,既降低了总体计算成本,又显着增加了在约束条件下找到正确极限分布的机会。固定的计算预算。
TensorFlow Probability 及其 R 包装器 tfprobability 提供了马尔可夫链蒙特卡罗 (MCMC) 方法,这些方法已在本博客的近期多篇文章中使用。这些文章针对的是已经熟悉该方法和术语本身的用户,而主要对深度学习感兴趣的读者不一定熟悉。在这里,我们试图弥补不足,介绍汉密尔顿蒙特卡罗 (HMC) 以及一些经常听到的伴随它的“流行语”,始终努力记住这一切“为了”什么。
数据驱动之旅(德雷克方程系列第 2 部分)在第 1 部分中,我们探索了银河系中可能有多少颗恒星拥有行星,并使用数据估算了银河系中拥有行星的恒星总数。现在我们已经解决了恒星问题,让我们仔细看看行星本身。在第 2 部分中,我们将深入研究这些行星中有多少颗可以真正支持生命,生命出现的频率以及生命进化为像我们这样的智慧文明的可能性。随着我们继续研究德雷克方程,事情变得更加具有推测性。但别担心,我们将使用数据科学、蒙特卡罗模拟和基于当前研究的合理假设来让事情变得扎实。所有图像均由作者使用 Midjourney 开发。快速提醒:德雷克方程为了提醒您,德雷克方程分解了估计活跃、可交流的外星文明数量的步骤。让
数据驱动下的外星文明观察(德雷克方程系列第 1 部分)如果我告诉你银河系中目前可能有超过 2,000 个外星文明,你会怎么想?这听起来就像你最喜欢的科幻节目中的情节转折,对吧?但如果我说我们可以使用数据科学来更接近答案,你会怎么想?这正是我们在本系列中要做的,使用实数来估计可能存在多少外星文明,它们可能有多近,以及我们是否有机会接触它们。在本系列中,我们将研究德雷克方程,自 1960 年代以来,当涉及到估计有多少先进的外星文明时,它一直是科学家的首选工具。我们将使用蒙特卡罗模拟等现代数据科学技术为内容增添趣味,这些技术本质上是一种奇特的说法,“让我们运行这些数字数千次,看看会发生什么。”所有图
Origin and fate of the pseudogap in the doped Hubbard model | Science
伪能隙与底层基态相之间的关系尚未严格建立。我们使用受控图解蒙特卡罗计算研究了有限温度下的掺杂二维哈伯德模型……
Data Science at Home: Solving the Nanny Schedule Puzzle with Monte Carlo and Genetic Algorithms
让混乱变得有序,同时简化我们寻找完美保姆的过程作为数据科学领导者,我习惯于拥有一支能够将混乱变为清晰的团队。但是,当混乱是你自己家庭的保姆时间表时,即使是最好的计划也会出错。一想到工作会议、午睡时间和不可预测的轮班,我们的思绪就会陷入混乱——直到我意识到我可以使用解决业务问题的相同算法来解决非常个人的问题。借助蒙特卡罗模拟、遗传算法和一些父母的聪明才智,我开始了一场驯服我们疯狂时间表的旅程,每次调整一个算法。结果如何?好吧,我们只能说我们保姆的新时间表看起来非常合适。照片由 Markus Spiske 在 Unsplash 上拍摄设置舞台:伟大的时间表难题我们的家庭时间表看起来就像瓷器店里的公
Reinforcement Learning, Part 5: Temporal-Difference Learning | by Vyacheslav Efimov | Jul, 2024
智能协同动态规划和蒙特卡罗算法 15 分钟阅读 · 18 小时前 强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其动作中学习,从而获得奖励。强化学习是强化学习,第 5 部分:时间差异学习 | 作者:Vyacheslav Efimov | 2024 年 7 月首次出现在 AI Quantum Intelligence 上。
Reinforcement Learning, Part 5: Temporal-Difference Learning
智能协同动态规划和蒙特卡罗算法简介强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其行为中学习,从而获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。强化学习的非凡之处在于,可以使用相同的算法使代理适应完全不同、未知和复杂的条件。注意。为了充分理解本文中的概念,强烈建议您熟悉之前文章中讨论的动态规划和蒙特卡罗方法。强化学习,第 2 部分:策略评估和改进强化学习,第 3 部分:蒙特卡罗方法关于本文在第 2 部分中,我们探索了动态规划 (DP) 方法,其中代理根据先前的计算迭代更新 V-/Q 函数及其策略,并用新的估计值替换它们。
摘要:爱荷华州锡达拉皮兹市与工程公司和美国陆军工兵区罗克岛 (MVR) 合作开发了洪水控制系统 (FCS)。 2011 年,美国陆军工程师研究与发展中心、海岸和水利实验室 (ERDC-CHL) 的任务是完成雪松河东侧可移动防洪墙的风险评估。 2016 年,ERDC-CHL 被要求在雪松河两岸修建临时防洪屏障。该研究的第一阶段包括最终 FCS 设计要考虑的七种替代方案,目标是成功部署的置信度为 90%。第 2 阶段由 MVR 发起,目标置信度为 95%。用于评估的方法是RiskyProject®软件。该软件使用蒙特卡罗分析方法根据逻辑顺序确定一系列持续时间、人力和劳动力成本。结果表明,“总体规划
Gaussian Process Regression with tfprobability
继续我们的 TensorFlow Probability (TFP) 应用之旅,在贝叶斯神经网络、汉密尔顿蒙特卡罗和状态空间模型之后,我们在这里展示了高斯过程回归的一个例子。事实上,我们看到的是一个相当“正常”的 Keras 网络,以非常常见的方式定义和训练,TFP 的变分高斯过程层发挥了所有魔力。
Dynamic linear models with tfprobability
之前的文章介绍了 tfprobability(TensorFlow Probability 的 R 接口),重点介绍了深度神经网络的增强功能(例如,引入贝叶斯不确定性估计)以及使用汉密尔顿蒙特卡罗拟合分层模型。这次,我们将展示如何使用动态线性模型 (DLM) 拟合时间序列,从而得到后验预测以及来自卡尔曼滤波器的平滑和滤波估计。
Driving for the Guard: Mears Takes the Wheel of No. 25
Casey Mears 将驾驶 25 号国民警卫队/GMAC 雪佛兰蒙特卡罗 SS 参加 2007 年 NASCAR Nextel 杯,并驾驶 24 号国民警卫队雪佛兰参加布希赛车系列赛。今年是 Guard 首次有赛车参加两个级别的比赛。