函数关键词检索结果

联合学习奖励和策略:具有... 的迭代逆强化学习框架

Jointly learning rewards and policies: an iterative Inverse Reinforcement Learning framework with…

联合学习奖励和策略:具有排序合成轨迹的迭代逆强化学习框架一种新颖的可处理和可解释算法,用于从专家演示中学习照片由 Andrea De Santis 在 Unsplash 上拍摄简介模仿学习最近在机器学习社区中引起了越来越多的关注,因为它能够通过观察到的行为将专家知识转移到自主代理。第一类算法是行为克隆 (BC),旨在直接复制专家演示,将模仿过程视为监督学习任务,其中代理尝试匹配专家在给定状态下的行为。虽然 BC 简单且计算效率高,但它经常受到过度拟合和泛化能力差的影响。相比之下,逆强化学习 (IRL) 通过推断奖励函数来瞄准专家行为的潜在意图,该奖励函数可以解释专家的行为在考虑的环境中是最佳的

GraphRAG 实际应用:从商业合同到动态问答代理

GraphRAG in Action: From Commercial Contracts to a Dynamic Q&A Agent

基于问题的提取方法在这篇博文中,我们介绍了一种利用图形检索增强生成 (GraphRAG) 方法的方法 — 以简化提取商业合同数据和构建问答代理的过程。这种方法与传统的 RAG(检索增强生成)不同,它强调数据提取的效率,而不是不加区分地分解和矢量化整个文档,这是主要的 RAG 方法。在传统的 RAG 中,每个文档都被分成块并进行矢量化以进行检索,这会导致大量不必要的数据被拆分、分块并存储在矢量索引中。然而,这里的重点是从每个合同中提取最相关的信息,以用于特定用例,即商业合同审查。然后将数据构建成知识图谱,该图谱组织关键实体和关系,从而允许通过 Cypher 查询和向量搜索进行更精确的图数据检索。

新的生成AI工具打开音乐创作的门

New generative AI tools open the doors of music creation

我们最新的AI音乐技术现已在MusicFX DJ,Music AI Sandbox和YouTube短裤 宣布一套全面的,开放的稀疏自动编码器,用于语言模型可解释性。 新的AI系统设计成功结合靶分子的蛋白质,具有推进药物设计,疾病理解等的潜力。 使用深度学习来解决计算量子化学中的基本问题并探索物质与光的相互作用 该模型可以极大地提高性能,并在跨模式的长篇文化理解中取得了突破。 在自然通信中发表的一系列实验中,我们发现证据表明人类判断确实受到对抗性扰动的系统影响。 这是人工智能(AI)研究及其实用应用领域中令人难以置信的一年。 在自然界发表的一篇论文中,我们介绍了FunSearch,这是

边缘超导性为量子计算开辟新途径

Edge Superconductivity Unlocks New Paths in Quantum Computing

一项新研究强调了某种超导材料在其边缘表现出独特的电子行为,不同于其内部。这可能对开发高效的电气系统和推进量子计算技术产生重大影响。拓扑材料具有不寻常的特性,因为它们的波函数(引导电子的物理定律)被打结或扭曲。在界面 [...]

使用 CLIP 样式编码器进行零样本定位

Zero-Shot Localization with CLIP-Style Encoders

我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为​​特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在

通过功能叙述对时间序列进行可推广的自回归建模

Generalizable Autoregressive Modeling of Time Series Through Functional Narratives

时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...

电子窃取活动使用 Unicode 混淆来隐藏蒙古语窃取器

E-skimming campaign uses Unicode obfuscation to hide the Mongolian Skimmer

Jscrambler 的研究人员发现了一项使用独特的 JavaScript 混淆和重音字符来隐藏名为 Mongolian Skimmer 的撇渣器的撇渣活动。 Jscrambler 研究人员发现了一项使用独特的 JavaScript 混淆和重音字符来隐藏被称为“蒙古语 Skimmer”的 skimmer 的攻击活动。攻击者使用不常见的 Unicode 字符作为变量和函数名称。该 skimmer 被命名为 […]

Depth Pro:不到一秒即可实现清晰的单目度量深度

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议

关于直接偏好优化引起的隐式奖励模型的有限泛化能力

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……

AI 代理:生成式 AI 中工具调用和推理的交集

AI Agents: The Intersection of Tool Calling and Reasoning in Generative AI

解析人工智能中的问题解决和工具驱动的决策作者和 GPT-4o 的图片描绘了处于推理和工具调用交汇处的人工智能代理简介:代理人工智能的兴起如今,新的库和低代码平台使构建人工智能代理(也称为数字工作者)变得比以往任何时候都更容易。工具调用是驱动生成式人工智能模型“代理”性质的主要能力之一,它通过将其能力扩展到对话任务之外。通过执行工具(函数),代理可以代表您采取行动,解决需要稳健决策并与各种外部数据源交互的复杂、多步骤问题。本文重点介绍如何通过工具调用来表达推理,探讨工具使用的一些挑战,介绍评估工具调用能力的常用方法,并提供不同模型和代理如何与工具交互的示例。解决问题的推理表达成功的代理的核心是两

用线性规划推导生产价格

A Derivation Of Prices Of Production With Linear Programming

1.0 简介这篇文章基于应用于线性规划的对偶理论的某些性质,说明了生产价格的推导。我力求比以前的阐述更简洁、更基本。本阐述基于 John Roemer 的《可重复解决方案》(《马克思主义经济理论的分析基础》,剑桥大学出版社,1981 年)。您将在下面找到效用最大化或供需函数。我不需要这样的假设。尽管如此,人们可以将这种推导解读为与边际主义一致。2.0 技术和禀赋本例中生产了两种商品,铁和玉米。公司经理知道一种由表 1 中定义的流程组成的技术。每列显示以单位级别运行的流程的投入和产出。所有流程都需要一年时间才能完成,并在年底提供其产出。每个过程都表现出规模收益不变 (CRS)。为方便起见,假设表

在 LLM 代理框架之间进行选择

Choosing Between LLM Agent Frameworks

构建定制的基于代码的代理和主要代理框架之间的权衡。作者提供的图片感谢 John Gilhuly 对本文的贡献。代理正处于发展阶段。随着多个新框架和该领域的新投资,现代 AI 代理正在克服不稳定的起源,迅速取代 RAG 成为实施优先事项。那么 2024 年最终会成为自主 AI 系统接管编写电子邮件、预订航班、与我们的数据对话或任何其他任务的一年吗?也许,但要达到这一点还有很多工作要做。任何构建代理的开发人员不仅必须选择基础——使用哪种模型、用例和架构——还必须选择要利用哪个框架。您会选择长期存在的 LangGraph 还是新进入的 LlamaIndex Workflows?或者你走传统路线,自己

强化学习,第 8 部分:特征状态构建

Reinforcement Learning, Part 8: Feature State Construction

通过将状态特征巧妙地纳入学习目标来增强线性方法强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其行为中学习,从而获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。强化学习的显著之处在于,可以使用相同的算法使代理适应完全不同、未知和复杂的条件。关于本文在第 7 部分中,我们介绍了可扩展标准表格方法的值函数近似算法。除此之外,我们特别关注了一个非常重要的情况,即近似值函数是线性的。我们发现,线性保证了收敛到全局最优值或 TD 不动点(在半梯度方法中)。问题是,有时我们可能希望使用更复杂的近似值函数,而不仅仅是简单的标量积,而不离开

使用 Sentinel-2 影像和辅助地理空间数据自动绘制国际异质景观中的土地覆盖类型

Automated Mapping of Land Cover Type within International Heterogenous Landscapes Using Sentinel-2 Imagery with Ancillary Geospatial Data

摘要:目前尚不存在使用浅层机器学习和低密度时间序列图像进行自动训练数据生成和土地覆盖分类的近全球框架。本研究提出了一种使用 Sentinel-2 颗粒的两个日期在七个国际站点绘制九类、六类和五类土地覆盖的方法。该方法使用一系列光谱、纹理和距离决策函数与修改后的辅助层相结合来创建二进制掩码,从中生成一组平衡的训练数据应用于随机森林分类器。对于土地覆盖掩码,对反射率、光谱指数值和欧几里得距离层应用了逐步阈值调整,评估了 62 种组合。计算了全球和区域自适应阈值。使用年度 95 和 5 百分位 NDVI 合成为决策函数提供时间校正,并将这些校正与原始模型进行比较。精度评估发现,两日期土地覆盖和时间校

泰勒级数解释

The Taylor Series, Explained

一种函数逼近方法继续阅读 Towards Data Science »

宗教通过各种渠道促进经济增长

Religion Matters for Economic Growth through Various Channels

宗教是一种普遍存在的社会现象,它可以通过影响宏观经济生产函数的四个要素(物质资本、人力资本、人口/劳动力和全要素生产率)来刺激或削弱经济增长。

Apple 的这篇 AI 论文介绍了 AdEMAMix:一种利用双指数移动平均线来提高梯度效率和改善大规模模型训练性能的新型优化方法

This AI Paper from Apple Introduces AdEMAMix: A Novel Optimization Approach Leveraging Dual Exponential Moving Averages to Enhance Gradient Efficiency and Improve Large-Scale Model Training Performance

机器学习取得了重大进展,特别是通过深度学习技术。这些进步在很大程度上依赖于优化算法来训练各种任务的大规模模型,包括语言处理和图像分类。这个过程的核心是最小化复杂、非凸损失函数的挑战。优化算法,如随机梯度下降 (SGD) 及其帖子 Apple 的这篇 AI 论文介绍了 AdEMAMix:一种利用双指数移动平均线来提高梯度效率和提高大规模模型训练性能的新型优化方法首先出现在 AI Quantum Intelligence 上。

短期利率特征……

Short term interest rate characteristics…

货币主义者担心,与过去一段时间的短期无风险利率平均值相比,当前的短期无风险利率会引起对股价的严重担忧……将金融资产价格视为方程式 P = (A-L)/A 的函数,其中 A 和 L 是存款系统的资产和负债……在点 1 处,财政盈余被保存在存款机构的 TTL 账户中,导致 L 系统增加了 1000 亿美元……在点 2 处,美联储在 2008 年 9 月将存款系统 A 增加了数千亿美元,导致信贷供应停止,并引发了全球金融危机……而在点 3 处,他们再次做了与点 2 相同的事情,在 2020 年 3 月建立了超过 1 万亿美元的 A,导致信贷功能再次停止,直到这一监管功能被暂停……如今,财政部不再使用