Anindya关键词检索结果

Anindya Das Antar 访谈:评估审核护栏在调整 LLM 输出方面的有效性

Interview with Anindya Das Antar: Evaluating effectiveness of moderation guardrails in aligning LLM outputs

他们在 AIES 2025 上发表的论文“你的护栏能守卫吗?”评估审核护栏在使 LLM 输出与专家用户期望保持一致方面的有效性的方法 Anindya Das Antar、Xun Huan 和 Nikola Banovic 提出了一种评估和选择护栏的方法,该方法能够最好地将 LLM 输出与主题专家的领域知识保持一致。在这里,[...]