基于机器学习的web意外检测

2024-11-14

Web防火墙是信息安保的第一道防线。随着网络技术的极速降级，新的黑客技术也层出不穷，为传统规定防火墙带来了应战。传统web入侵检测技术经过保养规定集对入侵访问启动阻拦。一方面，硬规定在灵敏的黑客面前，很容易被绕过，且基于以往常识的规定集难以应答0day攻打;另一方面，攻防反抗水涨船高，防卫方规定的结构和保养门槛高、老本大。

基于机器学习技术的新一代web入侵检测技术有望补偿传统规定集方法的无余，为web反抗的防卫端带来新的开展和打破。机器学习方法能够基于少量数据启动智能化学习和训练，曾经在图像、语音、人造言语处置等方面宽泛运行。但是，机器学习运行于web入侵检测也存在应战，其中最大的艰巨就是标签数据的缺乏。虽然有少量的反常访问流量数据，但web入侵样本稀少，且变动多样，对模型的学习和训练形成艰巨。因此，目前大少数web入侵检测都是基于无监视的方法，针对少量反常日志建设模型(Profile)，而与反常流量不符的则被辨以为意外。这个思绪与阻拦规定的结构恰好相反。阻拦规定意在识别入侵行为，因此须要在反抗中“随机应变”;而基于profile的方法旨在建模反常流量，在反抗中“以不变应万变”，且更难被绕过。

基于意外检测的web入侵识别，训练阶段通常须要针对每个url，基于少量反常样本，形象出能够形容样本集的统计学或机器学习模型(Profile)。检测阶段，经过判别web访问能否与Profile相符，来识别意外。

一、关于Profile的建设，关键有以下几种思绪：

1. 基于统计学习模型

基于统计学习的web意外检测，通常须要对反常流量启动数值化的特色提取和剖析。特色例如，URL参数个数、参数值长度的均值和方差、参数字符散布、URL的访问频率等等。接着，经过对少量样本启动特色散布统计，建设数学模型，进而经过统计学方法启动意外检测。

2. 基于文本剖析的机器学习模型

Web意外检测归根结底还是基于日志文本的剖析，因此可以自创NLP中的一些方法思绪，启动文本剖析建模。这其中，比拟成功的是基于隐马尔科夫模型(HMM)的参数值意外检测。

3. 基于单分类模型

因为web入侵黑样本稀少，传统监视学习方法难以训练。基于白样本的意外检测，可以经过非监视或单分类模型启动样本学习，结构能够充沛表白白样本的最小模型作为Profile，成功意外检测。

4. 基于聚类模型

通常反常流量是少量重复性存在的，而入侵行为则极为稀少。因此，经过web访问的聚类剖析，可以识别少量反常行为之外，小搓的意外行为，启动入侵发现。

二、基于统计学习模型

基于统计学习模型的方法，首先要对数据建设特色集，而后对每个特色启动统计建模。关于测试样本，首先计算每个特色的意外水平，再经过模型对意外值启动融合打分，作为最终意外检测判别依据。

这里以斯坦福大学CS259D:>

特色2：字符散布

模型：对字符散布建设模型，经过卡方测验计算意外值p

特色3：参数缺失

模型：建设参数表，经过查表检测参数失误或缺失

特色4：参数顺序

模型：参数顺序有向图，判别能否有违规顺序相关

特色5：访问频率(单ip的访问频率，总访问频率)

模型：时段内访问频率散布，均值μ，方差σ2，应用切比雪夫不等式计算意外值p

特色6：访问时时期隔

模型：距离时期散布，经过卡方测验计算意外值p

最终，经过意外打分模型将多个特色意外值融合，获取最终意外打分：

三、基于文本剖析的机器学习模型

URL参数输入的面前，是后盾代码的解析，通常来说，每个参数的取值都有一个范围，其准许的输入也具备必定形式。比如上方这个例子：

例子中，绿色的代表反常流量，白色的代表意外流量。因为意外流量和反常流量在参数、取值长度、字符散布上都很相似，基于上述特色统计的形式难以识别。进一步看，反常流量虽然每个都不相反，但有独特的形式，而意外流量并不合乎。在这个例子中，合乎取值的样本形式为：数字_字母_数字，咱们可以用一个形态机来表白非法的取值范围：

对文本序列形式的建模，相比拟数值特色而言，愈加准确牢靠。其中，比拟成功的运行是基于隐马尔科夫模型(HMM)的序列建模，这里仅做便捷的引见，详细请参考介绍文章[2]。

基于HMM的形态序列建模，首先将原始数据转化为形态示意，比如数字用N示意形态，字母用a示意形态，其余字符坚持不变。这一步也可以看做是原始数据的归一化(Normalization)，其结果使得原始数据的形态空间被有效紧缩，反常样本间的差距也进一步减小。

紧接着，关于每个形态，统计之后一个形态的概率散布。例如，下图就是一个或许获取的结果。“^”代表开局符号，因为白样本中都是数字扫尾，起始符号(形态^)转移到数字(形态N)的概率是1;接上去，数字(形态N)的下一个形态，有0.8的概率还是数字(形态N)，有0.1的概率转移到下划线，有0.1的概率转移到完结符(形态$)，以此类推。

应用这个形态转移模型，咱们就可以判别一个输入序列能否合乎白样本的形式：

反常样本的形态序列出现概率要高于意外样本，经过适合的阈值可以启动意外识别。

四、基于单分类模型

在二分类疑问中，因为咱们只要少量白样本，可以思考经过单分类模型，学习单类样本的最小边界，边界之外的则辨以为意外。

这类方法中，比拟成功的运行是单类支持向量机(one-classSVM)。这里便捷引见该类方法的一个成功案例McPAD的思绪，详细方法关注文章[3]。

McPAD系统首先经过N-Gram将文本数据向量化，关于上方的例子，

首先经过长度为N的滑动窗口将文本宰割为N-Gram序列，例子中，N取2，窗口滑动步长为1，可以获取如下N-Gram序列。

下一步要把N-Gram序列转化成向量。假定共有256种不同的字符，那么会获取256*256种2-GRAM的组合(如aa, ab, ac …)。咱们可以用一个256*256长的向量，每一位one-hot的示意(有则置1，没有则置0)文本中能否出现了该2-GRAM。由此获取一个256*256长的0/1向量。进一步，关于每个出现的2-Gram，咱们用这个2-Gram在文本中出现的频率来代替干燥的“1”，以示意更多的信息：

至此，每个文本都可以经过一个256*256长的向量示意。

如今咱们获取了训练样本的256*256向量集，如今须要经过单分类SVM去找到最小边界。但是疑问在于，样本的维度太高，会对训练形成艰巨。咱们还须要再处置一个疑问：如何缩减特色维度。特色维度约减有很多成熟的方法，McPAD系统中对特色启动了聚类到达降维目标。

上左矩阵中黑色示意0，白色示意非零。矩阵的每一行，代表一个输入文本(sample)中具备哪些2-Gram。假设换一个角度来看这个矩阵，则每一列代表一个2-Gram有哪些sample中存在，由此，每个2-Gram也能经过sample的向量表白。从这个角度咱们可以取得2-Gram的相关性。关于2-Gram的向量启动聚类，指定的类别数K即为约减后的特色维数。约减后的特色向量，再投入单类SVM进后退一步模型训练。

再进一步，McPAD驳回线性特色约减加单分类SVM的方法处置白模型训练的环节，其实也可以被深度学习中的深度自编码模型代替，启动非线性特色约减。同时，自编码模型的训练环节自身就是学习训练样本的紧缩表白，经过给定输入的重建误差，就可以判别输入样天性否与模型相符。

咱们还是沿用McPAD经过2-Gram成功文本向量化的方法，间接将向量输入到深度自编码模型，启动训练。测试阶段，经过计算重建误差作为意外检测的规范。

基于这样的框架，意外检测的基本流程如下，一个愈加完善的框架可以参见文献[4]。

本文管中窥豹式的引见了机器学习用于web意外检测的几个思绪。web流量意外检测只是web入侵检测中的一环，用于从海量日志中捞出大批的“可疑”行为，但是这个“大批”还是存在少量误报，只能用于检测，还远远不能间接用于WAF间接阻拦。一个完备的web入侵检测系统，还须要在此基础上启动入侵行为识别，以及告警降误报等环节。

机器学习 web 意外检测

<<如何创立一个无代码的自助客户聊天机器人

OEM AI 机器学习和深度学习是的关键市场>>

基于机器学习的web意外检测

您可能还会对下面的文章感兴趣：

随便看看