常模糊模式的贴近度分布(图2)。 根据上面两个直方图的分析可知,待测样本同病毒模式的贴近度区分度不高。图1 中显 150 示,测试样本与病毒模式贴近度大概都分布在0.74 到0.8 之间。仅依据其同病毒模型的贴近 度无法有效分类。而图2 显示,待测样本同正常模式贴近度的区分度比较好。如果以贴近度 为0.75 为区分点,当待测文件同正常模式的贴近度小于0.75 时,待测文件为病毒文件,当 贴近度大于0.75 时,为正常文件,检测正确率能达到80%以上。 2.2 隶属度函数的选择 155 通过多个隶属函数实验,本文选检测率较高的两种隶属函数进行实验分析。当隶属度函 数为 μ(x) =1−e−(x/σ )2 ,从图3 中可以看出,σ =1.5 时模型判别正确率达到最大值0.8599, 之后趋于不变。 图3 隶属度函数为 μ(x) =1−e−(x/σ )2 的检测率图 Fig. 3 Accuracy rate curve of discrimination when belong value function is 160 μ(x) =1−e−(x/σ )2 分析采集的样本集可知,不同的关键词在判断文件类型时的贡献程度是不同的,为了在 隶属函数中加入不同关键词对模型的影响,将每一个关键词的频度差值的平方根作为隶属函 数中该关键词的影响系数。在这里,本文对如上的隶属函数进行了改进。 当隶属函数为 2 μ(x) =1−e−k dix 时,其中i 165 d 为第i 个关键词在病毒模式和正常模式中频 度差值的平方根, k 为系数。从图4 中可以看出当k =0.7 时,模型判别正确率达到最大值 0.8870。 图4 隶属度函数为 2 μ(x) =1−e−k dix 的检测率图 Fig. 4 Accuracy rate curve of discrimination when belong value function is 2 170 μ(x) =1−e−k dix 从上两个图中可以看出,隶属函数 2 μ(x) =1−e−k dix 可以达到更大的准确率,能够体 现不同的关键词对隶属度的贡献值大小,所以选择函数. 2 μ(x) =1−e−k dix .作为最终的隶属 度函数。 175 2.3 十次交叉重复实验 每次随机提取459 个实验样本作为测试数据集,通过十次交叉验证实验来确定模糊模式 的判别准确率。实验数据如表1 所示。 180 表1 模糊模式交叉实验结果 Tab. 1 Result of cross validation based on fuzzy pattern 序号 TP TN FP FN TPrate TNrate FPrate FNrate 准确率 1 198 206 53 2 0.9900 0.7954 0.2046 0.0100 0.8812 2 197 208 51 3 0.9850 0.8031 0.1969 0.0150 0.8824 3 196 209 50 4 0.9800 0.8070 0.1930 0.0200 0.8824 4 197 210 49 3 0.9850 0.8108 0.1892 0.0150 0.8867 5 199 209 50 1 0.9950 0.8070 0.1930 0.0050 0.8889 6 198 209 50 2 0.9900 0.8070 0.1930 0.0100 0.8867 7 198 203 56 2 0.9900 0.7838 0.2162 0.0100 0.8736 8 198 208 51 2 0.9900 0.8031 0.1969 0.0100 0.8845 9 198 200 59 2 0.9900 0.7722 0.2278 0.0100 0.8671 10 197 198 61 3 0.9850 0.7645 0.2356 0.0150 0.8606 综合 1976 2060 530 24 0.9880 0.7954 0.2046 0.0120 0.8793 185 表格1 结果显示,模糊模式对正常文件的平均检测率达到0.988,对病毒文件的平均检 测率仅为0.7954,模糊模式模型的样本的平均检测率为0.8793。 2.4 实验分析 图5 为模糊模式十次交叉验证的检测准确率曲线图,由图可以看出,该检测方法对正常 190 文件的检测率在0.975 以上且检测结果比较平稳,而对病毒文件的检测率仅在0.800 左右, 且波动比较大,所以模糊模式对正常文件的检测率很高,但是对病毒文件的检测不高,这导 致模糊模式检测模型整体的检测率为0.870 左右 图5 模糊模式10 次交叉验证检测率曲线图 195 Fig. 7 Accuracy rate curve of ten-cross validation based on fuzzy pattern 3 结论 本文给出了一种基于模糊模式的脚本病毒的检测模型。由以上的实验结果分析可知,基 于模糊模式的脚本病毒检测方法具有一定的可行性。在训练与分类算法中,根据脚本病毒特 200 点设计合适的隶属度函数,选择贴近度的计算方法,可以提高检测率,实现未知脚本病毒的 识别。 [参考文献] (References) [1] 杨希来. 互联网环境下反脚本类病毒技术的研究[D]. 辽宁:沈阳工业大学,2004. 205 [2] Hofmeyr S, Forrest S. Immunity by design: An artificial immune system[R]. San Francisco, USA: Proceedings of t he Genetic and Evolutionary Computation Conference, 2003. [3] Rabek J . C. et al. Detection of injected,dynamically generated and obfuscated malicious code[R]. Washington, DC, USA: Proceedings of t he 2003 ACM Workshop on Rapid Malcode, 76-82, 2003. [4] 何申,张四海,王煦法,马建辉,曹先彬. 网络脚本病毒的统计分析方法[J]. 计算机学报,2006,29(6): 210 969-975. [5] 张波云. 计算机病毒智能检测技术研究[D]. 长沙:国防科学技术大学,2007. [6] Boyun Zhang, Jianping Yin, Jingbo Hao, et al. Using fuzzy pattern recognition to detect unknown malicious executables code, Fuzzy Systems and Knowledge Discovery[J]. Artificial Intelligence, 2005, 3613(6): 29-34. [7] L.A.Zadeh. The Concept of a Linguistic Variable and its Application to Approximate Reasoning Informat[J]. 215 Sci, 1975, 8: 199-251. [8] 刘佳. 非线性系统的模糊建模与控制[D]. 黑龙江:黑龙江大学,2007. [9] 邢宗义. 复杂工业过程的模糊建模与控制[D]. 北京:铁道科学研究所,2002. [10] 李弼程,邵美珍,黄洁. 模式识别原理与应用[M]. 西安:西安电子科技大学出版社,2008. [11] 郭旭亭,贾小珠,张洪水. 一种基于程序行为模糊模式匹配的病毒检测方法[J]. 青岛大学学报:自然 220 科学版,2007,20(4):69-72. [12] 王凯,侯著荣,王聪丽. 基于交叉验证SVM 的网络入侵检测[J]. 测试技术学报,2010,24(5):419-423. 学术论文网Tag:计算机论文 代发论文 职称论文发表 |