基准的关键词检索结果

商业周期指标 - 工业,制造生产,零售销售

Business Cycle Indicators – Industrial, Manufacturing Production, Retail Sales

全部三个,尽管自2月以来的生产基本上都是持平的,自3月以来,真正的零售销售额下降了。图1:图1中的NBER的BCDC之后是NBER的BCDC:NONFARM PAYROLL包括基准的修订工作(Bold Blue),使用平滑人口控制(橙色),工业生产(RED),不包括Ch.2017 $的当前转移者的个人收入(BOLD […]

语言模型在预测数据匹配目标任务时会有所改善

Language Models Improve When Pretraining Data Matches Target Tasks

每个数据选择方法本质上都有一个目标。实际上,这些目标通常通过基准驱动的迭代隐式出现:研究人员制定了选择策略,火车模型,测量基准的性能,然后相应地完善。这提出了一个自然的问题:当我们明确地进行优化时会发生什么?为了探讨这一点,我们提出了以基准为目标的排名(BETR),这是一种基于与基准培训示例的相似性选择预训练文档的简单方法。 betr嵌入基准示例和在共享空间中的预处理文件样本,分数……

估计修正案在替代性质的性质上的预算效应,《一项大型法案法案》,相对于预算执行基准,供参议院考虑有关修正案的预算效果的信息,以替代性质的性质,一项大型《美丽的法案法》,在参议院委员会网站上发布的预算上发布于2025年6月27日

Information About the Budgetary Effects of an Amendment in the Nature of a Substitute to H.R. 1, the One Big Beautiful Bill Act, as posted on the website of the Senate Committee on the Budget on June 27, 2025

CBO和税收联合委员会的工作人员估计了该修正案相对于在参议院考虑预算执行的基准的影响。

将使西班牙“付”:特朗普威胁要对北约国防支出持有的关税

Stockman: Washington's Fiscal Doomsday

Stockman:David Stockman通过Brownstone Institute撰写的华盛顿财政末日日,如果您不认为华盛顿在财政世界末日机器的毛顶中,请再想一想。起点是在30年的CBO预测中,表达的是,美元从目前的29万亿美元公开承担了美国的财政债务,除了将当前的税收,支出和结构性赤字政策留下(即基线政策)(即基线政策)(即,公共持有的债务)将在接下来的三分之一的范围内增长154%,而这一数字将达到154%,而这一数字将达到154%,而这一数字将达到154%,而这一数字将达到154%,而这一数字将达到154%,而这一数字将达到154%,则无所作为。 GDP到2054年。此外,该结果假

在语言模型中重新审视不确定性量化评估:与响应长度偏差结果的虚假互动

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过广泛的测试7来证实这是经验上发生的……

物理学家为Qubit操作精度设定了新的世界记录

Physicists set new world record for qubit operation accuracy

牛津大学的物理学家为控制单个量子位的准确性设定了一个新的全球基准,达到了量子逻辑操作的有史以来最低的错误率(仅为0.000015%),或在670万操作中的错误中获得了一个错误。这次创纪录的结果几乎代表了十年前同一研究小组设定的上一个基准的数量级改进。

思维的幻想:通过问题复杂性的角度了解推理模型的优势和局限性

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象提供见解。

超越基准:为什么AI评估需要现实检查

Beyond Benchmarks: Why AI Evaluation Needs a Reality Check

,如果您如今一直关注AI,您可能已经看到头条新闻,报告了AI模型实现基准记录的突破性成就。从ImageNet图像识别任务到在翻译和医学图像诊断方面的超人分数,长期以来,基准一直是测量AI性能的金标准。但是,像这些数字一样令人印象深刻[…]超越基准的帖子:为什么AI评估需要现实检查首先出现在unite.ai上。

商业周期指标 - 2025年5月6日

Business Cycle Indicators – 6 May 2025

每月GDP添加到关键指标,然后是NBER BCDC:图1:非货币薪资包括基准修订工作,来自CES(BOLD BLUE)(BOLD BLUE),隐含的NFP,从初步基准的NFP到12月(薄蓝色)(薄蓝色),报道的平民就业,报道(Orange),工业生产(RED),现有的运输(RED),CH.2017 $(BOULD INFERD CH.2017 $),该公司的销量不包括Ch.2017 $(BOUDD)。 ch.2017 $ […]

GPA - 不是该行为。 NC应该停止强迫所有大三学生参加该考试。

GPA – Not The ACT. NC Should Stop Forcing All Juniors To Take That Test.

对于那些仍在使用标准化测试作为学校有效性的基准的北卡罗来纳州议员而言,这是给他们的。该报告的一个特定部分很有趣,特别是在北卡罗来纳州,我们刚刚将该法案管理给所有高中生,以此来衡量……继续阅读GPA,而不是该法案。 NC应该停止强迫所有大三学生参加该考试。

特朗普:“如果(外国汽车制造商)提高价格,我不在乎,因为人们将开始购买美国汽车。”

Trump: “I couldn’t care less if [foreign automakers] raise prices because people are going to start buying American cars.”

从NBC经彭博社(Bloomberg)从NBC升高:“我希望他们提高价格,因为如果这样做,人们将购买美国制造的汽车,”他说,在他的漫长答案中重复了两次“我不在乎”的短语。最后,我们理解…… 个人收入增长在 +0.8%m/m vs +0.4%彭博社共识,而消费增长为 +0.4%m/m vs 0.5%共识。 GDPNOW现在以-0.5%Q/Q年度调整了黄金进口。密歇根州对3月份的最终期望下降了52.6 vs 54.2共识。图1:来自CES(粗蓝色)的非农业工资式修订工作,暗示了初步基准的NFP […]

2月的商业周期指标:当收入上升时消费下降是什么意思?

Business Cycle Indicators for February: What Does It Mean When Consumption Falls while Income Rises?

从NBC经彭博社(Bloomberg)从NBC升高:“我希望他们提高价格,因为如果这样做,人们将购买美国制造的汽车,”他说,在他的漫长答案中重复了两次“我不在乎”的短语。最后,我们理解……个人收入增长在 +0.8%m/m vs +0.4%彭博社共识,而消费增长为 +0.4%m/m vs 0.5%共识。 GDPNOW现在以-0.5%Q/Q年度调整了黄金进口。密歇根州对3月份的最终期望下降了52.6 vs 54.2共识。图1:来自CES(粗蓝色)的非农业工资式修订工作,暗示了初步基准的NFP […]

AgentEval启动开源AI基准测试计划

AgentEval Launches Open-Source AI Benchmarking Initiative

Agenseval是一项新计划,旨在为法律市场提供可以自由使用的Genai基准的开源集合,并且也是...

谁给了这个家伙经济学博士学位。 (续)?

Who Gave this Guy an Economics Ph.D. (cont’d)?

还记得Heritage Foundation的EJ Antoni何时在X上发布此图表吗?好吧,我认为许多难题已经通过新的人口控制和基准的NFP解决,并考虑到覆盖范围有所不同的事实,平民就业涵盖了农场工人和自雇。请注意下面我使用平民就业(CPS)[…]

金价创历史新高,还有上涨空间吗?

金価格は史上最高値を更新、まだ上昇余地はあるか?

■ 摘要 纽约黄金期货价格自1月份以来一直呈上涨趋势,最近在本月5日创下了历史新高。从去年秋季到今年年初,市场缺乏方向,因为“未来不确定性增加”和“通胀担忧增加”带来的上行压力与“美国利率上升”和“美元走强”带来的下行压力交织在一起。然而,今年1月,特朗普政府上台后开始实施提高关税等大胆政策,导致未来不确定性进一步增加,进而导致黄金作为避险资产的需求增加,这被认为是推动金价创下新高的动力。 此外,国内以日元计价的黄金期货价格也呈现上涨趋势,本月5日创下历史新高。日元兑美元走弱,纽约黄金期货价格上涨也为其提供了推动力。从更长远的角度看,国内金价的上涨趋势清晰可见。 2024年至今,国内黄金累计上

开源创新时代的推理优化

Optimizing Inference in the Age of Open-Source Innovation

探索十个多模态数据集和基准的主要特征,以评估多模态模型的性能。

截至 1 月中旬的商业周期指标

Business Cycle Indicators as of Mid-January

工业和制造业生产(+0.9% 环比增长,而共识为 +0.3%;+0.6% 环比增长,而共识为 +0.2%)、零售额(控制)意外上涨。首先,NBER BCDC 跟踪的指标:图 1:来自 CES 的非农就业(NFP)就业(蓝色)、来自初步基准的隐含 NFP(粗体蓝色)、平民就业(橙色)、工业生产(红色)、个人收入(不包括经常转移)[…]

指数基金风靡,基金选择需积极

インデックス型ファンド人気の中でのアクティブファンド選択

近年来,指数基金越来越受欢迎。股票型基金(包括ETF)中指数基金的占比逐年增加,目前已超过60%(图1)。指数基金之所以受欢迎,是因为它们能够以较低的管理费提供与整体市场相当的回报,但即使你购买了管理费较高的主动型基金,你也不能期望回报(以下简称alpha)超过标杆。还有辞职。那么,在什么样的情况下我们可以期待 alpha 呢?主动型基金经理会进行各种研究和分析,但仅靠努力无法产生阿尔法收益。如果您的努力获得回报并且您能够先于其他股票发现以错误定价交易的股票,那么您就可以获得阿尔法收益。当然,为了产生阿尔法值,管理人的高水平技能是必不可少的,但除非股票以错误的价格交易,否则这种水平的技能无法得