京科互联科技发展集团研究论文被顶级会议ICASSP 2021录用

科技 08-04 来源：京科互联集团

近日，由ICASSP2021组委会正式通知，京科互联科技发展集团（以下简称：京科互联）郑小禄作为主要作者，《HYBRID MODEL FOR NETWORK ANOMALY DETECTION WITH GRADIENT BOOSTINGDECISION TREES AND TABTRANSFORMER》成功被ICASSP 2021录用，论文概述如下：

论文简介

在本文中，我们提出了我们针对ICASSP2021网络异常检测挑战(NAD)挑战的解决方案。首先，我们提出了检测网络异常的特征提取方法，因为长期有效地从流量数据中提取区分特征可以极大地有助于提高异常检测性能。其次，训练了梯度增强决策树和基于表变压器的分类模型进行多类分类任务。该表变压器基于自我关注，可以将分类特征的嵌入转换为鲁棒的上下文嵌入，从而实现更高的预测精度。最后，我们集成了这些结果，以进一步提高其性能。为了证明我们的方法的有效性，在NAD 数据集上进行了广泛的实验。我们的方法在决赛排行榜上排名第二，并获得了 0.625 分。

NAD是指通过随着时间的推移观察流量数据来找到正常和预期的行为来检测异常的网络流量，同时过滤掉影响信息系统安全的潜在异常行为。过去几十年，机器学习领域和数据挖掘领域的研究人员开发了许多监督和无监督方法，目标是实现鲁棒异常检测。尽管已经作出了可持续的努力和大量的工作，但 NAD仍远没有得到缓解，并面临着一些挑战。例如，攻击的稀缺性导致了基于分类的方法的类不平衡问题，并大大增加了检测的难度。为了处理这些攻击的稀缺性，已经探索了许多异常检测方法来检测网络流量中的异常，旨在用基于机器学习的方法从流量数据中识别攻击。另一方面，以前的许多尝试都缺乏提取网络流量数据的区别特征，而这些特征对检测性能至关重要。

在本文中，我们提出了我们针对 ICASSP2021NAD挑战的解决方案，其目的是提高检测网络异常任务的性能。首先，进行特征工程，利用原始数据提取区分特征。其次，我们探索了梯度增强机(GBM)和基于表变压器的分类器，以有效地利用数值特征和分类特征。此外，表变压器采用自我注意，并自动构建特征交互。最后，我们集成了GBM和表式变压器的结果。利用NAD数据集进行了大量的实验，获得了优越的性能，证明了该方法的有效性。

方法计算方法

我们的NAD任务的框架如图1所示。如图所示，该框架由三个主要组件组成：特征提取、分类建模和集成部分。对于一个给定的样本，我们首先从数据中提取特征，包括数值特征和分类特征。基于这些特征，训练了梯度增强树(GBM)和表变压器模型，以预测 NAD 任务的可能性。最后，我们对GBM和表变压器的结果进行了集成。随后，我们将更详细地解释这些组件。

2.1. 特征工程设计

功能工程对检测性能至关重要。在实验中，我们在特征工程阶段进行了一系列的预处理，包括基本的转换、基于原始数据的统计特征生成。一般来说，我们将其特性分为两个主要部分：基于数据包的特性（如表1所示）和基于流程的功能。为了检查包的头，基于包的功能有助于检测协议的不当行为和低级网络攻击。为了提取更多有区别的特征，我们还创建了基于流的特征。对于基于流的特性，我们通过聚合数据包的属性来创建这些特性。此外，我们还使用原始数据，通过使用不同大小的时间窗口来生成多个流特征。

2.2. 梯度提升决策树

在实验中，我们首先使用梯度增强决策树(GBDT)来进行检测任务。相比其他方法，如支持向量机、随机 Forest、GBDT，可以提供优越的分类性能，并在过去十年中赢得了一些机器学习挑战 2。具体来说，梯度增强算法是一种用于回归、分类和分类任务的机器学习方法，它属于提升算法的家族。作为基于树的梯度增强算法，GBDT 可以连续地拟合残差，并构建每棵新树，这可以减少对前一个树的预测所产生的误差。减少残差的策略可以极大地提高模型的预测精度。在我们的实验中，我们使用猫进行多类分类任务3，利用数值特征和分类特征。选择 CatBoost 的原因是：CatBoost 可以使用自动方式处理分类功能。

2.3.基于表式变压器的分类器

利用上述特征，我们也探索了表变压器作为分类模型。变压器[13]模型广泛应用于自然语言处理(NLP)领域[14]和计算机视觉领域[15,16]，而只对表格数据进行了少数研究。最近的研究表明，变压器也可以在表格数据中被采用。在[9]中，作者提出了表变压器，它可以实现树集成方法的类似性能，并优于表数据的最先进的深度学习方法。一般而言，表式变压器架构由列嵌入层（如图 2 所示）、N 个变压器层和多层感知器(MLP)组成。对于变压器层，它包含一个多头自注意层和一个前馈层。注意头的输出可以使用一个完全连接的层投影到尺寸的嵌入。反过来，嵌入被通过两个位置方向的前馈层。在我们的实验中，我们将提取的特征输入表变压器模型。以下部分将报告平板变压器的实验结果。

实验结果

对于训练数据集，NAD 挑战组织者提供了三个文件：包括“1203_firewall.csv” 、 “1210_firewalLcsv”和“1216_firewall.csv”，而测试数据集包含为期四天的数据。我们进行连接三个培训文件作为整个培训数据集。对于每个网络通信记录，在此网络连接会话期间，有 21个功能，例如连接持续时间（秒）、入站/出站流量计数（字节）等等。值得注意的是：如预期类不平衡问题也发生在数据集中。在训练数据集中，正常类的比例为 96.527%。对于 DDOS-Smurf，该比率为 0.025%，而探测-IP 扫描的比率为 2.60%，探测端口扫描为 0.84%，探测-Nmap 为 0.009%。在我们的实验中都进行了持久验证和交叉验证。

具体来说，对于持久验证，我们通过随机选择来构造训练数据和验证数据。在我们的实验中，我们将训练/验证数据集之间的比率设置为 0.8/0.2。我们报告了5 次的平均结果的基于验证的实验结果。为了进行交叉验证，我们遵循了科学工具学习包中的分层折叠函数4我们在实验中进行了5次折叠的交叉验证。为了评估性能，可以在以下实验中使用多个指标，包括精度、f1 分数和再精度代表了模型在方程 1 中所做出的所有阳性预测中正确预测阳性的能力。召回表示模型在方程式2 中正确预测正值的能力。F1 分数表示方程式 3 中的模型分数作为精度和回忆分数的函数。

其中，TP、FP 和 FN 分别为真实阳性数据的数量、假阳性数据的数量和假阴性数据的数量。我们还采用了 NAD 挑战提供的评估标准（如公式 4 中给示）。

其中是=0.3 和月=2。

3.2.GBDT 和表式变压器的实施详细信息

实验发现，超参数的选择对模型的性能有很大的影响。首先，我们分析了具有不同超参数设置的 GBDT 的结果，如表 2 所示。可以从表中可以看到，学习率和迭代次数的选择对模型的性能至关重要。性能随着学习率的下降和大迭代轮的减少而提高。具体来说，较低的学习率和更多的迭代可以提供更好的检测性能。为了平衡训练时间，我们将学习率设置为 0.01，最大迭代次数设置为 3000，树的深度设置为 7。为了避免过度拟合，我们采用了早期停止策略。对于 5 倍的交叉验证，总训练时间约为 42 分钟。关于表变压器的参数，我们将隐藏层的维数、层数和注意头数分别设置为 32、6 和 8。我们使用了 PyTorch5 6对于平板变压器的训练，5 倍的总训练时间约为125 分钟。所有的模型都使用 GeforceNVIDIA2080TiGPU 进行训练。

3.3. 不同算法之间的定量比较

在这部分中，我们对不同的多分类方法进行了定量比较，包括一种对一种分类器[17]、随机森林[18,12]、多层感知器、梯度增强决策树[19,20]和关于提取特征的表变压器[21]。我们将随机森林中的树木数量设置为 400 棵。对于多层感知器，采用了两个隐藏层。对于梯度增强决策树，我们设置了学习率为 0.01，迭代次数设置为 3000。提前停车的回合设定为 300 分。从图中可以看出，梯度增强决策树的性能明显优于其他方法。表式变压器提供了第二佳的性能，这证明了变压器在异常检测中的潜力。我们发现，GBDT 和平板变压器的结果之间的相关性很低，这可能表明 GBDT 和平板变压器可以在数据中识别出不同的攻击模式。

3.4. 合奏学习

众所周知，集成来自不同分类器的结果可以提高性能。混合、装袋[22]和堆叠是三种广泛使用的集成方法。为了简单起见，我们使用了基于混合的集成处理，通过对 GBDT 和表变压器的结果进行加权平均。从表中可以看到，集成可以提高性能。在我们最终的解决方案中，我们通过将 GBDT 的权重分别设置为 0.7，对表转换器分别设置为 0.3 来平均结果。

研究结论

在本文中，我们提出了我们对 ICASSP2021NAD 挑战的解决方案，目的是检测流量数据中的网络异常。首先，进行特征工程，丰富原始数据的特征集。其次，我们探索了基于 GBDT和表变压器的分类器。最后，我们对GBDT 和表变压器的结果进行了集成。利用 NAD 数据集进行了大量的实验，获得了优越的性能。我们在最后的排行榜上排名第二，这证明了所提方法的有效性。我们未来的研究将旨在研究变压器作为特征提取工具，以学习更强大的特征表示的 NAD 问题。