llm领域信息情报检索---XiaoMi-AI

2026年7月20日 00:00

LVSum：时间戳感知长视频摘要的基准

LVSum: A Benchmark for Timestamp-Aware Long Video Summarization

长视频摘要对多模态大语言模型 (MLLM) 提出了重大挑战，特别是在长时间保持时间保真度以及生成语义和时间上均基于的摘要方面。我们引入了 LVSum，这是一个人工注释的基准，用于评估具有细粒度时间对齐的长格式视频摘要。 LVSum 包含 72 个不同的视频，跨越 13 个领域，平均持续时间为 16 分钟，每个视频都注释有最多 10 个包含时间参考的人工生成的摘要。 We conduct a comprehensive evaluation…

走向数据科学

2026年7月20日 15:00

使用自适应解析进行循环工程：使用 Azure 解析平面表格，使用 Vision LLM 解析图形

Loop Engineering with Adaptive Parsing in Action: Parsing Flat Tables with Azure and Figures with a Vision LLM

企业文档智能 [Vol.1 #10B] - LLM 作为最后一道防线，然后两个真正的升级从头到尾进行：从平面表到 Azure，从图形到视觉模型后循环工程与自适应解析的实际应用：使用 Azure 解析平面表和带有愿景的图形 LLM 首先出现在《走向数据科学》上。

Science 2.0

2026年7月20日 13:01

Biochar X：帮助蚯蚓应对有机硫酸铜污染

Biochar X: Helping Earthworms Navigate Organic Copper Sulfate Contamination

Biochar X：帮助蚯蚓应对有机硫酸铜污染比尔·克林顿总统下令美国农业部为使用旧农药和基因工程的产品制定政府“有机”营销指定后，该行业开始腾飞，目前已成为价值 150 美元的大型食品部门。Hank CampbellMon，07/20/2026 - 09:01CategoriesEnvironment

走向数据科学

2026年7月17日 13:30

上下文工程还不够 - 循环内没有法学硕士的循环工程实验

Context Engineering Isn’t Enough — A Loop Engineering Experiment With No LLM Inside the Loop

每个人都在谈论循环工程，但大多数讨论都假设法学硕士位于循环的中心。我想隔离架构本身。因此，我构建了一个确定性的、零依赖的 Python 基准测试，用简单的规则替换模型，使我能够直接衡量一个问题：目标导向控制器能否比传统线性管道更好地隔离故障？在验证了 300 个随机种子的基准测试并修复了一个最初使我自己的结果无效的微妙错误之后，我发现控制器始终完成了线性执行器从未达到的独立分支。本文介绍了架构、基准测试设计、调试过程以及一个狭隘但实用的主张背后的证据：故障隔离是控制流的一个可测量属性，与 LLM 推理无关。后语境工程还不够——循环内没有 LLM 的循环工程实验首先出现在《走向数据科学》上。

Apple机器学习研究

2026年7月15日 00:00

LLM 函数调用的不确定性量化

Uncertainty Quantification for LLM Function-Calling

大型语言模型 (LLM) 越来越多地用于自主解决现实世界的任务。其中一个关键要素是法学硕士函数调用范式，这是一种广泛使用的方法，为法学硕士配备工具使用功能。然而，LLM 错误地调用函数可能会产生严重影响，特别是当其影响不可逆转时，例如转账或删除数据。因此，在执行函数调用之前，考虑法学硕士对函数调用正确解决任务的信心至关重要。不确定性量化（UQ）方法可用于量化……

Apple机器学习研究

2026年7月16日 00:00

极其简单的自蒸馏改进了代码生成

Embarrassingly Simple Self-Distillation Improves Code Generation

大型语言模型 (LLM) 能否在没有验证器、教师模型或强化学习的情况下仅使用其自己的原始输出来改进代码生成？我们通过简单自蒸馏（SSD）给出肯定的答案：从具有特定温度和截断配置的模型中抽取样本解决方案，然后使用标准监督微调对这些样本进行微调。 SSD 在 LiveCodeBench v6 上将 Qwen3-30B-Instruct 从 42.4% 提高到 55.3% pass@1，收益主要集中在更难的问题上，并且它在 4B、8B 和 30B 规模的 Qwen 和 Llama 模型上进行了推广，包括......

Apple机器学习研究

2026年7月15日 00:00

CLaRa：通过连续潜在推理连接检索和生成

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

检索增强生成（RAG）利用外部知识增强了大型语言模型（LLM），但仍然受到长上下文和不相交的检索生成优化的影响。在这项工作中，我们提出了 CLaRa（连续潜在推理），这是一个在共享连续空间中执行基于嵌入的压缩和联合优化的统一框架。为了获得语义丰富且可检索的压缩向量，从而减少输入生成器的文档长度，我们引入了 SCP，一种基于问答和释义的密钥保留数据合成框架......

MIT Technology Review _人工智能

2026年7月15日 17:09

认识 GPT-Red：LLM 超级黑客 OpenAI 旨在使其模型更安全

Meet GPT-Red: an LLM super-hacker OpenAI built to make its models safer

OpenAI 构建了一个名为 GPT-Red 的 LLM 超级黑客，将其用作陪练伙伴，帮助其其他模型增强对网络攻击的防御能力。上周该公司发布了其旗舰 LLM 的最新版本 GPT-5.6。 OpenAI 表示，针对 GPT-Red 进行训练使该模型成为迄今为止最强大的版本。 GPT-Red 自动化...

Security Affairs _恶意软件

2026年7月16日 11:13

TuxBot v3：使用 AI 构建的 IoT 僵尸网络 - 错误、免责声明等

TuxBot v3: The IoT Botnet Built With AI – Bugs, Disclaimers and All

TuxBot v3，一个适用于 17 种架构的人工智能构建的物联网僵尸网络，附带了开发人员从未删除的 LLM 错误和安全免责声明。 Palo Alto Networks 的 Unit 42 发现了一个先前未记录的模块化 IoT 僵尸网络框架，称为 TuxBot v3 Evolution，它具有一个不寻常的细节：开发人员使用大型语言模型来编写重要部分 [...]

La Biblia de la IA

2026年7月14日 17:18

当沉默更安全时：医疗保健领域 LLM 弃权的审查和决策理论框架

When silence is safer: a review and decision-theoretic framework for LLM abstention in healthcare

大型语言模型 (LLM) 旨在生成用户提示的答案，这通常会促使他们做出响应，即使不确定性很高、信息不完整或拒绝更合适。在医疗保健领域，这种倾向可能是危险的：自信地陈述但不准确的医疗建议可能会造成重大伤害，因此戒烟的能力尤其重要。在本文中，我们回顾了调查医疗保健领域法学硕士放弃行为的研究。文献强调了两个主要动机：（1）不确定性驱动的弃权，即模型在置信度较低时拒绝做出响应；（2）安全驱动的弃权，即模型拒绝提供潜在有害的信息。大多数现有机制都是外在的，依赖辅助工具来确定何时弃权。我们发现最先进的法学硕士仍然难以拒绝不适当的提示，而且很少有基准评估现实医疗场景中的弃权，其表现落后于其他领域。基于这些发

Mostly Economics

2026年7月13日 10:59

利用人工智能让历史讲述银行挤兑

Using AI to Let History Speak About Bank Runs

纽约联储经济博客上的 Sergio Correia、Stephan Luck 和 Emil Verner：银行危机通常与银行挤兑和银行恐慌相关，但我们对银行挤兑的实证理解因缺乏银行层面的数据而受到限制。在一篇新论文中，我们使用大型语言模型 (LLM) 从 [...] 中提取有关银行挤兑的信息

Science 2.0

2026年7月13日 15:18

美国科学并未因资金削减而受到损害

American Science Isn't Being Harmed By Funding Cuts

美国科学不会因资金削减而受到损害如果你有办法拯救世界，但 NIH 拒绝资助它，它会发生吗？如果号称世界上最著名的期刊《科学》和《自然》都拒绝发表你的研究怎么办？您免费向他们提供一项研究，然后他们可以拥有版权并出售？Hank CampbellMon，07/13/2026 - 11:18类别科学教育与政策

亚马逊云科技 _机器学习

2026年7月10日 15:20

SageMaker HyperPod 上 LLM 推理的分类预填充和解码

Disaggregated prefill and decode for LLM inference on SageMaker HyperPod

在本文中，我们将展示如何使用 HyperPod Inference Operator 在 Amazon SageMaker HyperPod 上通过 vLLM 实现 DPD。

走向数据科学

2026年7月11日 15:00

长上下文不是免费的 - 我构建了一个安全的提示修剪层，使 LLM 系统能够正常工作

Long Context Isn’t Free — I Built a Safe Prompt-Pruning Layer That Makes LLM Systems Work

法学硕士不会因为忘记而失败，而是因为记得太多而失败。随着对话的增长，提示会积累冗余和低价值的令牌，从而增加成本和延迟，同时默默地降低输出质量。本文介绍了一个确定性的提示修剪层，它可以在不破坏依赖关系的情况下减少令牌的使用，并由真正的基准测试和经过生产测试的设计提供支持。文章《长上下文不是免费的——我构建了一个使 LLM 系统工作的安全提示修剪层》首先出现在《走向数据科学》上。

Arácnido

2026年7月10日 22:45

蜘蛛学，卷。 20、第5号（2026年夏季）

Arachnology, Vol. 20, No. 5 (Summer 2026)

目录提醒：蜘蛛学，卷。 20，第 5 期（2026 年夏季）新一期现已在线提供，网址为 https://www.bioone.org/journals/arachnology/volume-20/issue-5 该期的目录如下。单击下面的链接查看每篇文章的摘要，或单击上面的链接在线阅读目录。如果您希望更新您的偏好或警报，请登录您的帐户 https://bioone.org 如果您需要任何进一步的帮助，请访问 https://bioone.org 并单击“帮助”。猎人蜘蛛的步行检测和可操作性分析的计算机辅助模式Mobin Saboohi、Majid Moradmand、Shima Zaferan

Apple机器学习研究

2026年7月9日 00:00

激励以自我为中心的视频理解模型中的时间意识

Incentivizing Temporal-Awareness in Egocentric Video Understanding Models

多模态大语言模型 (MLLM) 最近在视觉理解方面表现出了强大的性能，但它们往往缺乏时间意识，特别是在以自我为中心的环境中，其中推理取决于事件的正确排序和演变。这种缺陷部分源于训练目标未能明确奖励时间推理，而是依赖于帧级空间快捷方式。为了解决这个限制，我们提出了时态全局策略优化（TGPO），这是一种具有可验证奖励的强化学习（RLVR）算法，旨在激励时态……

Science 2.0

2026年7月6日 22:01

HFO-1234yf 环境替代品被宣布为有毒化学品

HFO-1234yf Environmental Alternative Declared A Toxic Chemical

HFO-1234yf 环境替代品被宣布为有毒化学品HFO-1234yf 是环保人士吹捧的一种用于汽车空调系统的气候友好型替代制冷剂，但实际上可能比他们坚称造成污染的产品更严重。Hank CampbellMon，07/06/2026 - 18:01类别大气

Science 2.0

2026年6月29日 13:00

墙也是路

A Wall Is Also A Road

墙也是路跳过术语表。是的，这是编辑们喜欢的事情，因为著名的沟通指南“假设缺乏词汇，但不缺乏智力”，但那是当你为广大公众写作时。科幻小说读者很聪明。Hank CampbellMon, 06/29/2026 - 09:00类别随机想法

llm关键词检索结果