详细内容或原文请订阅后点击阅览
使用LSTM和Google的Bert模型检测恶意URL
一种渐进的方法,将使用LSTM和Google的BERT模型实施AI驱动的网页检测应用程序在生产中检测恶意URL,这首先出现在数据科学方面。
来源:走向数据科学网络犯罪的兴起使欺诈性网页检测成为确保互联网安全的重要任务。显然,这些风险(例如私人信息,恶意软件和病毒的盗窃)与电子邮件,社交媒体应用程序和网站上的在线活动有关。这些称为恶意URL的Web威胁被网络犯罪分子用于吸引用户访问看起来真实或合法的网页。
本文探讨了涉及变压器算法以检测恶意URL的深度学习系统的开发,目的是改善现有方法(例如长期记忆(LSTM))。 (Devlin等人,2019年)引入了由Google Brain在2017年开发的一种自然语言建模算法(BERT)。该模型能够做出更准确的预测,以优于复发性神经网络系统,例如长期短期记忆(LSTM)和门控回收单元(GRU)。在这个项目中,我将BERT的表现与LSTM作为文本分类技术进行了比较。随着包含超过600,000个URL的处理后数据集,开发了预训练的模型,并使用诸如R2得分,准确性,召回等性能指标进行比较结果。(Y. E. Seyyar等人,2022年)。就不寻常和共同的请求而言,该LSTM算法的准确率为91.36%,F1得分为0.90(高于BERT)。关键字:恶意URL,长期记忆,网络钓鱼,良性,双向编码器表示,来自变形金刚(BERT)。
1.0简介
通过Internet的Web可用性,多年来的用户数量越来越多。由于所有数字设备都连接到Internet,因此通过网站,社交媒体,电子邮件,应用程序等,越来越多的网络钓鱼威胁越来越多(Morgan,S。,2024年)报告说,由于私人信息泄漏,全球损失了超过9.5万亿美元。
人工智能 数据集 在这里