标题：基于拆分学习实现邮件检测的研究和应用
作者：张双双江旺范海亮；熊正坤
作者单位：华泰证券股份有限公司，江苏南京 210019；北京灵云数科信息技术有限公司，北京 100037
关键字：BERT模型；拆分学习；邮件检测；数据安全
摘要：随着人工智能的迅速发展，越来越多的研究将BERT（Bidirectional Encoder Representations from Transformers）等大语言模型应用到了网络安全的检测技术中，邮件检测技术是最热门的应用场景之一。然而考虑到部署大模型所需要的资源和技术能力，越来越多的客户转向主流的MaaS（Models-as-a-Service，MaaS）服务商。MaaS服务商凭借丰富的预训练模型和强大的训练服务，为用户提供了便捷的模型精调途径。然而，在金融领域，邮件数据往往涉及到公司内部的个人身份、商业机密等信息，直接披露给服务商会导致严重的隐私泄露风险。在模型更新可持续性发展上面临数据隐私泄露、计算资源有限等问题。为了解决这些问题，提出了一种基于拆分学习的邮件检测模型共享方法。该方法将BERT模型拆分为可在客户端上本地执行的部分和在服务器端上训练的部分，通过客户端对训练数据进行编码处理，保证了数据隐私的同时减少了传输到服务器端的数据量。服务器端收到客户端的编码信息后，结合BERT的后半部分进行效率高且安全的模型训练。最终，训练生成的模型更新回客户端，实现了模型的迭代优化和即时更新。