LLM关键词检索结果

您对LLM不公平吗?

Are You Being Unfair to LLMs?

他们可能应该得到更好的。您对LLM不公平吗?首先出现在数据科学上。

Point-3D LLM:使用大语言模型研究令牌结构对3D场景理解的影响

Point-3D LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models

有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…

自我反射不确定性:LLM知道他们的内部答案分布吗?

Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?

本文在ICML 2025的可靠和负责任的基础模型(RRFMS)研讨会上接受了本文。不确定量化在将大语言模型(LLMS)带到最终用户时起着关键作用。它的主要目标是LLM应该指出何时不确定其给出答案。尽管过去已经以数值确定性得分来揭示,但我们建议使用LLM的丰富输出空间,LLM的所有可能字符串的空间,以提供描述不确定性的字符串。特别是,我们寻求一个描述LLM答案分布的字符串……

评估驱动的LLM驱动产品的开发:从医疗保健中建立的经验教训

Evaluation-Driven Development for LLM-Powered Products: Lessons from Building in Healthcare

指标和监测如何与人类专业知识相结合以在医疗保健领域建立可信赖的AI。在LLM驱动的产品中,评估驱动的开发:医疗保健建设的经验教训首先是对数据科学的首先。

回顾所有类型的LLM代理

Recap of all types of LLM Agents

常规,反应,经营链,反射,tot,got,pot所有类型的LLM代理的邮图首先出现在数据科学上。

来自社区|我们如何使用LLMS

From the Community | How we use LLMs matter

MD-PHD学生Humza Khan撰写了有关适应LLM并保持批判性思维的重要性。社区的帖子|我们如何使用LLMS Matter首先出现在Stanford Daily。

Amazon Bedrock有效的跨语言LLM评估

Effective cross-lingual LLM evaluation with Amazon Bedrock

在这篇文章中,我们演示了如何使用亚马逊基岩的评估功能在不需要本地化提示或自定义基础架构的情况下在语言障碍中提供可靠的结果。通过全面的测试和分析,我们共享实用策略,以帮助降低多语言评估的成本和复杂性,同时保持全球大型语言模型(LLM)部署的高标准。

研究可能导致LLM在复杂推理方面更好

Study could lead to LLMs that are better at complex reasoning

研究人员开发了一种方法,使大型语言模型更适合诸如战略计划或过程优化之类的具有挑战性的任务。

LLM训练转移能力AI Leap

LLM Training Shift Powers AI Leap

它重要的是:LLM训练转移能力AI LEAP探讨了RLHF和教学调整等新培训方法如何增强AI。

学习充满信心的标记来路由LLM

Learning to Route LLMs with Confidence Tokens

大型语言模型(LLM)在几个任务上表现出了令人印象深刻的性能,并且越来越多地部署在现实世界中的应用程序中。但是,尤其是在高风险设置中,了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖,系统可以选择将问题路由将问题路由到另一个专家,或者以其他方式依靠安全的默认行为。在这项工作中,我们研究了LLM可以可靠地表明其答案的信心的程度,以及这种信心概念如何转化为下游的准确性……

您的模型还确定吗? LLMS的不确定性意识公平评估

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

最近快速采用大语模型(LLMS)强调了基准对其公平性进行基准测试的关键需求。传统的公平度量指标集中在基于离散准确性的评估(即预测正确性)上,无法捕获模型不确定性的隐式影响(例如,尽管精度相似,但还是对一个组的更高模型置信度更高,而另一组的置信度更高)。为了解决这一限制,我们提出了一个不确定性意识的公平度量,ucerf,可以对模型公平进行精细的评估,与…

公平修剪:减少LLMS偏差的精确手术

Fairness Pruning: Precision Surgery to Reduce Bias in LLMs

从不合理的枪击事件到中立的故事:如何通过选择性修剪后的公平修剪来修复有毒叙事:减少LLMS偏见的精确手术首先出现在数据科学方面。

LLM时代的软件工程

Software Engineering in the LLM Era

关于发展新软件工程师的发展,即使效率低下的LLM时代的邮政软件工程也首先出现在数据科学方面。

提示如Pro:LLM策略

Prompt Like a Pro: LLM Tactics

它很重要:及时像Pro:LLM策略会教会您提高策略来提高GPT-4,Claude和Gemini成绩。

代理提示工程:深入研究LLM角色和基于角色的格式

Agentic Prompt Engineering: A Deep Dive into LLM Roles and Role-Based Formatting

在LLM和代理商中使用角色的实用指南,其中包括Clarifai,Crewai和Google ADK的示例。

使用LLMS中亚马逊Q业务中图像文件中的上下文提取

Context extraction from image files in Amazon Q Business using LLMs

在这篇文章中,我们查看了一个分步实现,用于在Amazon Q Business应用程序中使用自定义文档丰富(CDE)功能来处理独立图像文件。我们将带您浏览CDE中配置的AWS lambda功能来处理各种图像文件类型,并展示该集成如何增强Amazon Q业务提供全面见解的能力的示例场景。

S3启动 - LLM评估“针对任何司法管辖区,语言 +模型”

S3 Launches – LLM Eval ‘For Any Jurisdiction, Language + Model’

著名法律技术专家雷蒙德·布莱德(Raymond Blyd)已推出了针对法律需求的新的LLM评估框架S3,该框架着重于“确定核心缺陷而不是……

评估代码生成LLMS中的长距离依赖性处理

Evaluating Long Range Dependency Handling in Code Generation LLMs

随着语言模型支持越来越大的上下文大小,评估其使其有效使用该上下文的能力变得越来越重要。我们分析了Several Code生成模型在上下文Windows中使用多个STEPKEY检索任务处理远距离依赖性的能力,最高为8K令牌。与喜欢流行的海景测试的测试相比,这些任务在难度方面逐渐降低,并允许对模型功能进行更多细微的评估。我们发现,当功能…