详细内容或原文请订阅后点击阅览
评估驱动的LLM驱动产品的开发:从医疗保健中建立的经验教训
指标和监测如何与人类专业知识相结合以在医疗保健领域建立可信赖的AI。在LLM驱动的产品中,评估驱动的开发:医疗保健建设的经验教训首先是对数据科学的首先。
来源:走向数据科学在大型语言模型(LLM)领域及其应用程序非常迅速。成本正在下降,基础模型变得越来越有能力,能够处理文本,图像和视频中的通信。开源解决方案在多样性和能力方面也爆炸了,许多模型都足够轻巧,可以探索,调整和迭代而没有巨额费用。最后,云AI培训和推理提供商(例如Databricks和Nebius)使组织越来越容易地将其应用的AI产品从POCS到生产准备的系统扩展。这些进步与LLM的业务使用以及代理应用程序的兴起汇友,其中模型计划并执行可能涉及与工具或其他代理商互动的复杂多步骤工作流程。这些技术已经对医疗保健产生影响,预计这将迅速增长[1]。
所有这些功能使入门令人兴奋,并且为特定用例构建基线解决方案可能非常快。但是,与传统的软件或ML模型相比,从本质上讲,LLM是非确定性的,并且不可预测。因此,真正的挑战在于迭代:我们如何知道我们的开发过程正在改善系统?如果我们解决问题,我们如何知道更改是否不会破坏其他问题?一旦生产,我们如何检查性能是否与我们在开发中看到的相当?使用制作单个LLM调用的系统回答这些问题已经很难,但是对于代理系统,我们还需要考虑它们之间做出的所有单个步骤和路由决策。为了解决这些问题,并因此获得了我们建立的系统的信任和信心,我们需要以评估为导向的发展。这是一种将迭代性,可操作的评估置于产品生命周期的核心,从开发和部署到监测。
代理系统 这篇出色的文章