How to Ensure Reliability in LLM Applications
了解如何使您的LLM应用程序更强大地鲁棒性,以确保LLM应用程序的可靠性首先出现在数据科学上。
From Equal Weights to Smart Weights: OTPO’s Approach to Better LLM Alignment
使用最佳运输来加重在LLM生成的响应中,最重要的是从相等的权重到智能权重:OTPO更好的LLM对准方法首先出现在数据科学方面。
ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations
多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset,并与涵盖问答的UI配对,UI…
对于任何人来说,经常发现人类教师对学生的写作反馈比人工智能工具更好的反馈也就不足为奇了。一项新的研究得出了相同的结论。但是,这项新研究的原因是从句子纠正到更深入的对话:LLM的定性见解和教师对学生写作的反馈[…]
我在上周发布的一些有趣的链接(我还将这些链接发布在Mastodon,Threads,NewsMast和Bluesky上):AI可以帮助改善员工的保留吗?经理会对它可能揭示的内容感到高兴吗? https://www.datasciencecentral.com/utilize-machine-learning-to-improve-emplove-rployee-retention-rates/this Clown因其角色而毫无疑问,为什么他未能以有意义的方式脱颖而出? https://www.theverge.com/ai-Artaver-intelligence/697129/rfk-jr-
有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…
Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?
本文在ICML 2025的可靠和负责任的基础模型(RRFMS)研讨会上接受了本文。不确定量化在将大语言模型(LLMS)带到最终用户时起着关键作用。它的主要目标是LLM应该指出何时不确定其给出答案。尽管过去已经以数值确定性得分来揭示,但我们建议使用LLM的丰富输出空间,LLM的所有可能字符串的空间,以提供描述不确定性的字符串。特别是,我们寻求一个描述LLM答案分布的字符串……
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache
大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…
Evaluation-Driven Development for LLM-Powered Products: Lessons from Building in Healthcare
指标和监测如何与人类专业知识相结合以在医疗保健领域建立可信赖的AI。在LLM驱动的产品中,评估驱动的开发:医疗保健建设的经验教训首先是对数据科学的首先。
Adoption of generative AI will have different effects across jobs in the U.S. logistics workforce
概述生成的人工智能有望深刻地重塑劳动力市场,就像以前的自动化浪潮一样,但存在明显的差异。与早期的技术(例如计算机化)不同,这些技术主要是自动化的常规管理任务或机器人技术,它影响了制造环境中的手动任务,生成的AI针对认知任务。以市售的大语言模型或LLMS为例,[…]在美国物流员工中,生成型AI的采用将对公平增长产生不同的影响。
CommVQ: Commutative Vector Quantization for KV Cache Compression
大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…
Work Data Is the Next Frontier for GenAI
9个原因为什么工作数据是LLM培训最有价值的数据源,它具有独特的能力推动LLM性能到前所未有的高度。后工作数据是Genai的下一个前沿,首先是迈向数据科学。
Chasing Shadows: Elon Musk’s Quest for Truth and the Limits of Large Language Models
埃隆·马斯克(Elon Musk)雄心勃勃,Xai的大型语言模式,一个无所不能的真理的灯塔是西西弗(Sisyphean)的任务,是贵族(是吗?),但最终是徒劳的。通过AI追求绝对真理就像在柏拉图的洞穴中追逐阴影:这是一个诱人的目标,但是它们所反映的工具和人类状况固有地不适合它。像Grok这样的大型语言模型(LLMS)并非构成辨别真相。它们的建造是为了反映他们经过训练的庞大而杂乱无章的人物。作为人类,我们并不是特别擅长的真理,因此,我们也没有培训过LLM的许多材料。我们不应该为无法实现的理想而努力,而是应该接受LLM的含义:研究,创造力和结构化知识策划的强大工具,能够指导我们朝着更清晰的理解框架
From the Community | How we use LLMs matter
MD-PHD学生Humza Khan撰写了有关适应LLM并保持批判性思维的重要性。社区的帖子|我们如何使用LLMS Matter首先出现在Stanford Daily。
Two important danger signals in the June employment report
- 新政的民主党是本·卡塞尔曼(Ben Casellman),他是《纽约时报》上周五的就业报告的首席经济通讯员:我要与众不同。正如我周五在头条新闻下写的那样,这是一个几乎没有积极的报道 - 有一些重要的负面影响。让我指出今天的几个大问题。标题是147,000个工作岗位,过去一年的平均水平约为平均水平:所以一切都很好,对吗?并非如此之快。该147,000人分解了74,000个私人工作 + 63,000个教育(另外10,000个)。 In the past six years, only 3 other times have public sector jobs (including educat