获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
摘要:大语言模型(LLM)正在重塑机器学习(ML)应用程序开发的景观。能够执行各种任务的多功能LLM的出现降低了人类参与培训和维护ML模型的必要性。尽管有这些进步,但出现了一个关键的问题:这些广义模型是否可以否定对特定于任务模型的需求?本研究通过比较LLM在检测网络钓鱼URL中的有效性与迅速工程技术相对于微调时的有效性来解决这个问题。值得注意的是,我们探讨了用于网络钓鱼URL检测的多种及时工程策略,并将它们应用于两个聊天模型,即GPT-3.5-Turbo和Claude 2。在这种情况下,通过使用1000个样本的测试集,获得的最大结果是92.74%的F1评分。之后,我们对包括GPT-2,BLOOM,BABY LLAMA和DISTILGPT-2在内的一系列基本LLM进行了微调(主要是用于文本生成)的,用于网络钓鱼URL检测。微调方法最终达到了峰值性能,在同一测试集上达到了97.29%的F1分数和99.56%的AUC,从而优于现有的现有先进方法。这些结果表明,尽管LLM通过及时的工程来实现,但可以加快应用程序开发过程,实现不错的表现,但它们不如专用的,特定于任务的LLM。