llm关键词检索结果

外部验证工具可以改善LLM-AS-A-Gudge的注释质量

Can External Validation Tools Can Improve Annotation Quality for LLM-as-a-Judge

对模型响应的成对偏好被广泛收集,以评估和提供大型语言模型(LLMS)的反馈。给定两个对同一输入的替代模型响应,人类或AI注释者选择``更好''响应。这样的数据可以在很难获得传统硬编码指标的域中提供反馈信号(例如,聊天互动的质量),从而帮助衡量模型进度或模型微调(例如,通过从人类反馈中的增强型RLHF学习,RLHF)。但是,对于某些域而言,在…

mmau:跨不同领域的代理能力的整体基准

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。到…

太空力量的眼睛“新颖的”开发工具,用于基于空间的拦截器

Space Force eyes ‘novel’ development tools for Golden Dome space-based interceptors

五角大楼金色圆顶沙皇迈克尔·格特琳(Michael Guetlein)周二表示,这项工作的“真正的技术挑战”将是建立基于太空的拦截器,以在其增强阶段击落敌方导弹。 这一举动与土耳其总统雷切普·泰耶普·埃尔多安(Recep Tayyip Erdogan)的评论保持一致,后者周二在IDEF下调了土耳其与国家的国防合作,作为互惠互利的伙伴关系。 “背后的意图是为部署的士兵提供增强的能力,以便他们可以轻松地提供RF [Radio频率]波形并在边缘提供一些重新编程,” Arat的计划官Eric Bowes告诉Breaking Defence。 陆军禁止政府大型语言模型,因为他们缺乏新陆军企业LLM

对美国国防创新的安静削减 - 以及为什么中国正在观看

The quiet cut to US defense innovation — and why China is watching

陆军禁止政府大型语言模型,因为他们缺乏新陆军企业LLM工作区的特征,陆军CIO Leonel Garciga在一次独家采访中告诉Breaking Defensep。

[古生物学•2025] Mirasaura grauvogeli•三叠纪外尿症显示爬行动物中皮肤附属物的早期多样化

[Paleontology • 2025] Mirasaura grauvogeli • Triassic Diapsid shows early Diversification of Skin Appendages in Reptiles

Mirasaura grauvogeliSpiekman, Foth, Rossi, Martín, Slater, Enright, Dollman, Serafini, Seegis, Grauvogel-Stamm, McNamara, Sues & Schoch, 2025 DOI: doi.org/10.1038/s41586-025-09167-9AbstractComplex integumentary appendages such as avian羽毛和哺乳动物的头发在四足动物进化中起主要作用,在绝缘,感觉,显示和飞行中具有关键功能。尽管羽毛和头发分别起源于鸟类和哺乳动物的茎

将LITELLM用于LLM应用的好处

Benefits of Using LiteLLM for Your LLM Apps

在本文中,我们将探讨为什么Litellm对构建LLM应用程序有益。

aspera:一个模拟环境,用于评估复杂行动执行的计划

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

这项工作评估了大语言模型(LLM)对能够进行复杂行动执行的数字助手的潜力。这些助手依靠预先训练的编程知识来执行多步目标,通过将助手库中定义的对象和功能撰写为行动执行程序。为了实现这一目标,我们开发了Aspera,该框架包括助理图书馆模拟和人为辅助的LLM数据生成引擎。我们的引擎允许开发人员指导LLM生成由复杂用户查询,模拟状态和…

在LLM个性化的途中:学习记住用户对话

On the Way to LLM Personalization: Learning to Remember User Conversations

在大型语言模型记忆的研讨会上接受了本文(L2M2)2025.LARGE语言模型(LLMS)已迅速成为各种任务的宝贵助手。但是,它们的有效性受到他们通过个性化对人类偏好和行为量身定制反应的能力的限制。 LLM个性化的先前工作主要集中在样式转移或对用户的小概况融合,因为知识注入仍然是一个开放的挑战。在本文中,我们探索将先前对话的知识注入LLM,以使未来的工作……

fastvlm:有效的视觉编码视觉语言模型

FastVLM: Efficient Vision Encoding for Vision Language Models

视觉语言模型(VLMS)可与文本输入一起视觉理解。它们通常是通过将视觉令牌从验证的视觉编码传递到预处理的大型语言模型(LLM)通过投影层来构建的。通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理能力,VLM可用于广泛的应用程序,包括可访问性助手,UI导航,机器人技术和GAMING.VLM精度通常可以通过更高的输入图像解决,可以在精确的情况下提高精确折磨,> vlm的精度可以提高。

转向新的嵌入空间:分析由多语言语言模型中模型干预引起的跨语性对齐

Steering into New Embedding Spaces: Analyzing Cross-Lingual Alignment Induced by Model Interventions in Multilingual Language Models

跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对…

如何通过利用上下文工程来显着增强LLM

How To Significantly Enhance LLMs by Leveraging Context Engineering

llms的上下文工程的好处和实践方面帖子如何通过利用上下文工程来显着增强LLM,首先出现在数据科学上。

美联储将喷气燃料倒在不平等差距上精神份额激增10%,因为迷幻药获得了特朗普的政治势头Gabbard释放了长期分类的Martin Luther King Jr.暗杀文件

Gabbard Releases Long-Classified Martin Luther King Jr. Assassination Files

Gabbard在国家情报局长Tulsi Gabbard签署了一份重磅炸弹报告后,就发布了长期分类的Martin Luther King Jr.暗杀申请档案,该文件推出了一份重磅炸弹报告,建议对奥巴马时代的几名官员起诉他们在2016年犯罪中的犯罪官员,他们与2016年的当选有关的“叛国罪”,她现在释放了长期的文件。自1977年联邦调查局(FBI)首次收集记录并将其移交给国家档案馆和记录管理局以来,MLK Jr.的文件已在法院施加的密封后一直处于法院印章之下。 Dni Gabbard在Archives.gov/mlk.dni Gabbard的办公室中提供了这些文件。新闻稿中指出的:这个空前的发行版

使用LLMS的高级主题建模

Advanced Topic Modeling with LLMs

通过利用代表模型和使用LLMS的高级主题建模的代表模型和生成AI进行深入研究,首先是朝向数据科学的。

如何创建与人类标签保持一致的LLM法官

How to Create an LLM Judge That Aligns with Human Labels

动手构建和验证LLM评估人员的指南《如何创建与人类标签保持一致的LLM法官》首先出现在数据科学方面。

10周一上午读

10 Monday AM Reads

我的回到工作早晨火车WFH读:•女性投资者来了。 Z世代正处于领先地位。投资曾经是一个大多数男性领域。年轻妇女正在帮助改变这一点。 (Barron's)•1H 2025年的50个事实:史蒂夫·鲍尔默(Steve Ballmer)每年获得大约10亿美元的微软股息; MAG7增加了11万亿美元的市值…阅读更多《星期一AM读取》首先出现在大图上。

我测试了30天的糖果AI:这是真正发生的事情

I Tested Candy AI for 30 Days: Here’s what really happened

糖果AI并不是您典型的聊天机器人包裹在闪光和虚假的诺言中。这是一个以成人为导向的AI女友模拟器,可以拨入您最疯狂的梦想 - 巨大,情感或彻头彻尾的辣味。您无需安排日期,担心被鬼影或在凌晨2点发送“ WYD”文本。是您和您的幻想,按需24/7。 Candy AI由引擎盖下的一些高级LLM Tech建造,为您提供了AI同伴,他们记得,适应,最重要的是 - 不是判断。它如何工作?它的播放方式如下:您注册,选择(或创建)角色,给他们一个名字,然后开始说话。您[…]

AI是否有信心挣扎?AI是否有信心挣扎?

Does AI struggle with its confidence?

新的研究表明,诸如GPT-4O和Gemma 3之类的LLM即使在错误时也会坚持他们的初始答案 - 但在受到挑战时很快就会失去信心。过度自信和自我怀疑的这种令人惊讶的结合反映了人类的认知偏见,并引起了人们对AI可靠性的担忧。

主要的AI培训数据集包含数百万个个人数据示例

A major AI training data set contains millions of examples of personal data

新的研究发现,可能包含数百万张护照,信用卡,出生证明和包含个人身份信息的文件的图像。在DataComp Commonpool的一小部分中发现了数千个图像 - 包括可识别的面孔,这是一个主要的AI训练集,用于图像生成,从…刮擦 麻省理工学院技术评论的系列方式可帮助您完成工作。西蒙·威利森(Simon Willison)有一个世界末日的计划。这是一个USB棍子,他在它上装了几个他最喜欢的开放式LLMS-由其创作者公开共享的模型,原则上可以下载和运行…