IBMs släpper öppen källkod Granite 4.0 Nano – kompakt LLM för laptop och mobil
令人惊讶的是,IBM 向更易于使用的 AI 迈出了大胆的一步,发布了开源 Granite 4.0 Nano,这是一个由四种紧凑语言模型组成的系列,实际上可以在笔记本电脑或手机上运行。 Granite 4.0 模型:这些模型足够小,可以直接在浏览器中运行,而无需 […]IBM 发布开源 Granite 4.0 Nano – 适用于笔记本电脑和移动设备的紧凑型 LLM 的帖子首次出现在 AI 新闻中。
Water Cooler Small Talk, Ep. 9: What “Thinking” and “Reasoning” Really Mean in AI and LLMs
理解人工智能如何模拟“理性”,以及为什么它不是人类在思考时所做的事情The post Water Cooler Small Talk,Ep. 9:人工智能和法学硕士中“思考”和“推理”的真正含义首先出现在《走向数据科学》上。
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...
ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...
Choosing the Best Model Size and Dataset Size under a Fixed Budget for LLMs
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
Are We Stochastic Parrots, Too? What LLMs Teach Us About Intelligence And Understanding
现在已经与 ChatGPT 5 互动了几个月,无论是针对工作相关问题还是私人/自学任务,我觉得我可以在这里分享一些关于这些大型模型可以告诉我们自己的思维过程的想法。上面的句子基本上泄露了我的底线,但我想我可以对这个概念进行更多的阐述。法学硕士在短短三四年内就彻底改变了广泛的信息处理任务。回顾过去,我能记得的唯一类似的突破是 20 世纪 90 年代初互联网搜索引擎的出现。但这一突破令人兴奋且令人敬畏,它更激发我思考这如何可能。让我来解压这个。阅读更多内容
‘Sycophantic’ LLMs like GPT fail to challenge illogical medical queries
大型语言模型 (LLM) 旨在提供帮助,但不能以牺牲诚实为代价。他们生成的信息必须事实准确、逻辑合理并与既定知识相符。这在医学等高风险领域尤其重要,因此可能不具备临床知识的患者在他们的[...]
Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks
大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些更……
Prompt Engineering Templates That Work: 7 Copy-Paste Recipes for LLMs
这7个提示模板将使LLM成为您最有用的助手。
Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……
推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
Saturday Citations: Primate skull diversity; exploring matter-antimatter asymmetry; asthma clarified
各位朋友们好!这个秋天的一周对过去十年在狼重新引入后黄石公园的营养级联效应提出了新的挑战。进化生物学家提出,对于早期人类来说,吃腐肉是一种可靠的营养策略,可能影响了进化。中国研究人员报告说,法学硕士和人类表达句子的方式相似。
TDS Newsletter: What Happens When AI Reaches Its Limits?
从远处看,新的法学硕士及其支持的应用程序似乎闪闪发光,甚至神奇。不断的产品发布和媒体报道增加了他们的光环,并在机器学习从业者和企业高管中产生了极度的 FOMO 情绪。整体效果如何?感觉人工智能是不可避免的,其价值不容置疑。我们选择的文章 […]后 TDS 时事通讯:当人工智能达到极限时会发生什么?首先出现在《走向数据科学》上。
10 Essential Agentic AI Interview Questions for AI Engineers
一组简明的问题,用于评估 AI 工程师对使用法学硕士、工具和自主工作流程的代理系统的理解。
Brain Rot 2: Legal Corruption, Cuomo Rascist AI Slop Edition
“脑腐”一词已应用于法学硕士和长期新冠疫情,但它也是描述特朗普2.0时代美国法律体系的一个有用术语。
En ny super prompt kan potentiellt öka kreativiteten i LLM
无聊的人工智能答案问题 一项新的研究技术可以使像 ChatGPT 这样的语言模型显着更具创造性,而您所需要的只是一个智能提示。当您向 ChatGPT 询问问题时,您通常会得到一个“典型”答案。这是由于研究人员所谓的“模式崩溃”,语言模型陷入了安全且可预测的答案中,而不是[…]这篇文章《一种新的超级提示可能会增加法学硕士的创造力》首先出现在人工智能新闻上。