学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

一种基于模糊模式的脚本病毒检测方法

 一种基于模糊模式的脚本病毒检测方法#
张涛,付垒朋,张瀚,李朝晖**
基金项目:国家自然科学基金项目(61004086);高等学校博士学科点专项科研基金项目(200800551024)
作者简介:张涛,(1983-),女,硕士研究生,主要研究方向:信息安全。
通信联系人:张瀚,(1978-),男,副教授,主要研究方向:信息安全、计算智能、生物信息技术. E-mail:
zhanghanster@gmail.com
(南开大学信息技术科学学院,天津 300071)
5 摘要:本文设计了一种基于模糊模式的脚本病毒检测方法。首先分析采集好的病毒脚本集和
正常脚本集提取样本关键字矩阵,根据脚本病毒特点选择正态偏大型模糊分布来构造隶属函
数,利用得到的样本矩阵和隶属函数建立正常脚本集和病毒病毒脚本集的模糊模式。通过实
验对欧氏贴近度分布与隶属函数的选择进行详细分析,以设计合适的模糊模型,最后给出模
糊模式检测病毒的检测效果。
10 关键词:计算机安全;模糊模式;脚本病毒;隶属度函数;贴近度
中图分类号:TP393.08
 0 引言
脚本的简洁易用和功能强大使得其非常流行,它的广泛应用使系统的安全性遗留下许多
隐患。基于脚本语言的各种病毒和木马在Internet 上出现,其中主要是JavaScript 和VBScript
30 [1]。脚本语言可以对系统进行操作,包括创建文件、修改以及删除文件,乃至格式化硬盘,
IE 浏览器对VBScript 和JavaScript 的解释执行功能使得脚本病毒在互联网环境下传播迅速。
脚本的语法、规则与可编译程序语言如C++、JAVA 相比较为简单粗糙。它的这种特点
使得编写形式多样,容易产生出变形。这就使得传统的病毒检测方法,特征代码法、校验和
法等对于变形病毒和新型未知病毒失去效果[2],因此针对网络脚本病毒的检测研究也引起研
35 究人员的关注。Rabek 等对可执行程序中的系统调用进行统计分析,来检测动态生成的变种
恶意代码[3],国内何申等[4]使用统计分析方法识别未知网络病毒。张波云[5]将神经网络、粗
糙集理论等应用到病毒检测中,在文献[6]中使用模糊理论[7][8][9][10]构造一个智能检测系统去
识别未知的计算机病毒,分析所调用的相关API 序列的特征;文献[11]也使用模糊模式研究
病毒识别,这些模糊模式的识别方法以API 序列为研究对象。
40 由于脚本病毒易于变形的特点,本文将模糊模式识别方法应用于脚本代码,设计了一种
基于模糊模式的脚本病毒检测方法。在建立正常脚本集和病毒脚本集的模糊模型中,采用正
 态偏大型模糊分布构造隶属函数,并对欧氏贴近度分布与隶属函数的构造进行比较分析,设
计较为合适的模糊模型,最后通过实验数据给出模糊模式检测脚本病毒的效果。
1 模糊模型与检测方案设计
45 本文设计了一种基于模糊模式的脚本病毒检测方法,采用模糊识别的模型,根据脚本病
毒编写特点选择隶属度函数与判别准则,设计了训练算法与分类算法,并通过多次交叉验证
实验[12]进行模型选择的比较与算法的分析。
1.1 模糊模型
在模糊识别的脚本病毒检测中,使用模型表述如下:
50 样本集合由k 个样本组成
( ) 1 2 , , ,k A= A A KA (1)
每个样本用m 个指标特征向量来表示
( )T
1 2 , , , j j j mj A= a a Ka (2)
则样本可以使用[11]中m×k的特征值矩阵来表示:
11 1
1
( )
k
ij
m mk
a a
a
a a
⎛ ⎞
⎜⎜ ⎟⎟=
⎜ ⎟
⎝ ⎠
K
M O M
L
55 (3)
该矩阵表示, ij a 为样本j 的第i 个指标特征值。i=1,2,...,m,j=1, 2,...,k
对于一个样本而言,其本身的m 个指标特征值的物理量纲不同,在进行识别时要消除
这些不同造成的影响,将指标特征值矩阵变成指标特征值相对隶属度矩阵:
11 1
1
( )
k
ij
m mk
r r
R r
r r
⎛ ⎞
=⎜⎜ ⎟⎟=
⎜ ⎟
⎝ ⎠
K
M O M
L
(4)
ij r 为相应隶属度的值,0 1 ij 60 ≤ r ≤
则k 个样本,每个样本含有m 个指标特征值,如果按C 个级别(或者类别)加以识别
的话,其模糊识别矩阵为:
11 1
1
( )
k
hj
c ck
u u
U u
u u
⎛ ⎞
=⎜⎜ ⎟⎟=
⎜ ⎟
⎝ ⎠
K
M O M
L
(5)
上述矩阵中, hj u 为样本j 从属于级别h 的相对隶属度,h= 1, 2,...,c。
65 1.2 模糊模型检测方案的主要步骤
以模糊模式为基础的病毒检测技术的主要步骤为:
(1) 提取样本中与识别对象有关的关键词,计算关键词的频度,设一个样本X 中提取n
个关键词,类别属性(正常文件,病毒文件)为c,则为每一个样本设定一个特征向量
1 2 ( , ,..., , ) n X x x x c 。
70 (2) 构建一个适用于样本的标准类型的隶属函数,在这里,标准类型指的是论域的模糊
子集。
 (3) 选择一个判决准则,来确定待识别对象的所属类别,可以根据情况选择最大隶属度
原则或者择近原则。
1.3 训练算法描述
75 基于模糊模式识别的脚本病毒训练算法的描述如下:
(1)脚本预处理。
基于模糊模式的脚本病毒检测方法,需要提前收集好脚本病毒样本和正常文件样本,对
每一个脚本进行分析,计算样本各个关键词的频度,公式为:
2 1
0 0
(n) 1 1
1 1 (1) ... (1) 2
2 2 2
n
n
f n
− n
⎧⎪
=

= = ⎨⎪
⎪ + + + + ≥

(6)
80 n 为关键词出现的频率, n = 0,1,2,...
设第i 个关键词在病毒脚本集合中出现的频度均值为( ) i E V ,在正常脚本集合中出现的
频度均值为( )i E N 。
预处理之后获得包含n 个关键词的病毒脚本模型和正常脚本模型。
病毒脚本模型为1 2 { ( ), ( ),..., ( )} n V= EV EV EV
正常脚本模型为1 2 { ( ), ( ),..., ( )} n 85 N= EN EN EN 。
(2)选择隶属函数对病毒脚本模型和正常脚本模型进行模糊化处理。
在进行脚本文件预处理的时候发现采集到的脚本文件集合的关键字有一些特点:某些关
键词出现或不出现对判断脚本文件的类型影响较大;该关键词出现一次或多次对判断文件的
类型也有影响,但没有前一种情况的影响大;根据样本的实际情况,关键词的平均频率0~0.2
90 之间,所以需要一个隶属度函数当自变量取值在0~1 时,斜率明显减小,大于1 时斜率也在
减小,但是变化不大,所以选择正态偏大型作为隶属函数。
使用正态偏大型模糊分布来构造病毒程序集V 、正常程序集N 及待测文件的隶属函数:
μ(x) =1−e− x2/σ2 (7)
其中σ 为参数,在本文中将依据实验结果对此隶属函数做调整。根据特征集中各个关
95 键词在病毒集和正常集中出现的频率以及隶属函数,求得病毒脚本模糊集为:
1 2 { ( ( )), ( ( )),..., ( ( ))} V V V n V% = μ EV μ EV μ EV (8)
正常脚本模糊集为:
1 2 { ( ( )), ( ( )),..., ( ( ))} N N N n N% = μ EN μ EN μ EN (9)
(3)输出
~V
以及
~N
,算法结束。
100 1.4 分类算法描述
由训练算法建好分类的模糊模式模型。当得到一个脚本时,根据已经建好的模糊模式的
模型来分类。
模糊模式的分类算法如下:
(1)获得待检测文件处理后的关键词频度作为该文件的模式;
 105 (2)利用待测文件的模式结合隶属度函数,求得待测文件的模糊模式;
1 2 { , ,..., } n M% = μ μ μ (10)
(3)依据训练过程得到的V% 和N% ,计算欧氏贴近度Ψ(M%,V%)和Ψ(M%,N%)。
2 2 2
1 1 2 2 (M,V) 1 ( V) ( V) ...(n V n)
n
μ −μ + μ −μ + + μ −μ
Ψ % % = − (11)
其中, ( ( )), 1,2,..., V i V i μ =μ E V i= n
2 2 2
1 1 2 2 (M,N) 1 ( N) ( N) ...(n Nn)
n
μ −μ + μ −μ + + μ −μ
110 Ψ % % = − (12)
其中, ( ( )), 1,2,..., N i N i μ =μ E N i= n
(4)对检测文件进行分类。
依据待检测模式同病毒模式的贴近度Ψ(M%,V%)和待检测模式同正常模式的贴近度
Ψ(M%,N%),若Ψ(M%,V%)>Ψ(M%,N%),则待检测模式为病毒文件,若Ψ(M%,V%)≤Ψ(M%,N%)则
115 待检测文件为正常文件。
(5)输出测试结果。
2 实验结果
为了更好的分析实验结果,采用一些相关的性能指标来度量实验的效果指标,各个指标
及其含义如下。
120 TP(True Positives) 把正常文件判断为正常文件的数量
TN(True Negatives) 把病毒文件判断为病毒文件的数量
FP(False Positives) 把病毒文件判断为正常文件的数量,即漏报数
FN(False Negatives) 把正常文件判断为病毒文件的数量,即虚警数
TP rate 正常文件判别正确率,TP rate = TP/(TP+FN)
125 FP rate 漏报率,FP rate = FP/(TN+FP)
TN rate 病毒文件判别正确率,TN rate = TN/(TN+FP)
FN rate 虚警率,FN rate = FN/(TP+FN)
Accuracy 实验判别正确率,Accuracy =(TP+TN)/(TP+FP+TN+FN)
实验使用交叉验证方式[12],交叉验证是一种模型评估方法,它将使用独立的测试样本
130 来测试生成的决策树模型,从而对学习的结果进行验证。如果对学习样本进行分析产生的大
多数或者全部分支都是基于随机噪声的,那么使用测试样本进行分类的结果将非常糟糕。首
先将所有的训练样本品均分成k 份,每次使用其中的一份作为测试样本,使用其余的k −1份
作为学习样本。迭代交叉验证非常适用于训练样本数目比较少的情形。本实验一共使用了
1378 个样本,其中病毒脚本777 个,包括从VX Heavens 网站下载的病毒实例和用脚本病毒
135 生成器生成的典型病毒实例;正常脚本集有601 个,主要取自网站脚本代码、word 宏、excel
宏和教程示例代码。从样本中随机选取三分之一,即459 个做测试样本,其余为学习样本,
进行十次交叉验证。本文从以下几方面进行实验结果分析:
 2.1 欧氏贴近度分布分析
140 图1 测试样本与病毒模式欧氏贴近度分布直方图
Fig. 1 Distribution histogram of Euclidean distances between tested script file pattern and virus pattern
图2 测试样本与正常模式欧氏贴近度分布直方图
145 Fig. 2 Distribution histogram of Euclidean distances between tested script file pattern and benign pattern
取其中一次验证结果,分析测试集同病毒模糊模式的贴近度分布(图1),测试集同正
学术论文网Tag:计算机论文 代发论文 职称论文发表

本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容