用于钓鱼网页识别的文本相似度比对方案
研究
王骞1,张健毅1,关海南1,辛阳2**
作者简介:王骞,(1986-),女,硕士研究生,信息安全、数据挖掘。
通信联系人:辛阳,(1977-),男,副教授,移动通信网络安全、计算机网络安全. E-mail: crystal_bjbt@sina.cn
5 (1. 北京邮电大学信息安全中心,北京 100876;
2. 北京安码科技有限公司,北京 100876)
摘要:页面的相似度比对是识别钓鱼网页的核心步骤之一,本文重点研究页面文本信息的比
对,针对当前文本相似度比对方法的种种缺陷,本文提出了一种用于钓鱼页面识别的文本相
似度比对方案。该方案基于语义识别,文中首先设计并定义了用于结构化处理钓鱼网页文本
10 的钓鱼文本元素(PTE)和钓鱼文本结构(PTU),并在此基础上,借助针对该领域建立起的概
念知识库,对文本处理后的结构体进行语义描述,构建出一种适用于钓鱼页面文本的语义描
述模型,最终将文本信息比对抽象成语义描述模型的比较。基于此理论,本文通过三个实验
对此方案进行了验证和分析,一系列结果证明,此方案在钓鱼网页识别领域具有较高的准确
率和效率,最后通过对结果分析得到了该方案的最佳实现方法。
15 关键词:网络安全;文本相似度;语义分析;钓鱼网页识别
0 引言
“网络钓鱼”攻击是指构造与经常进行商业交易的网页相似度很高的页面,利用欺骗性
邮件等方式诱导用户访问这种页面,并通过各种方法使访问用户泄露自己的账户、密码等信
40 息。这种欺骗性的网页称为“钓鱼网页”。钓鱼网页的危害随着电子商务的发展逐年增加,
已经引起了广泛关注,钓鱼网页的识别成为网络安全领域里的热点问题。
当前钓鱼网页的识别主要有黑名单机制、基于URL 特征识别、基于视觉特征识别[1]、
基于文本特征识别[2]等。然而黑名单机制的实时更新能力较弱,基于视觉特征的识别方法复
杂度较高,实施效率低,基于文本特征的钓鱼网页识别是当前较可靠和高效的识别方法。基
45 于文本特征的识别是针对钓鱼网页与仿冒对象相似度高的特点,将可疑网页和钓鱼网页的仿
冒对象(正常网页)进行网页文本信息比对,将两者相似度作为钓鱼网页的判定准则。
本文在总结前人成果基础上,参考了文本语义分析[3]的概念,结合领域本体的概念提出
了一种用于钓鱼网页识别的基于语义文本相似度[4]的比对方案,对钓鱼网页仿冒对象集合建
立比对模板库,将输入的网页与比对模板做相似度计算,实现对网页是否是钓鱼页面的判别。
50 该方案语义理解的核心算法采用领域本体对待分析页面的文本进行建模,通过对其解析
处理,抽取文本中的部分元素重新整合,并参照一定的规则对其进行语义标注[5],得到文本
的语义描述模型,实现对文本的语义理解。该方法将文本相似度的比对抽象为文本语义描述
模型间的比对,与一般的文本相似比对方案相比,该方案对文本结构方面的处理克服了一般
方法对待分析文本孤立单一的对比,通过对待分析文本语义进行理解,克服了近义词、语境
55 和句式结构等因素的干扰,实现了更灵活的语义层面的相似度计算。
本文的主要贡献有:证明了钓鱼页面的匹配与识别可以在语义可理解的层面进行分析;
设计并实现了一种全新的钓鱼领域文本的语义描述模型(PDM);实验证明了基于PDM 的
语义可理解算法在钓鱼页面识别方面可以达到令人满意的效率与精确度。
1 钓鱼页面语义描述模型
60 我们通过领域本体对钓鱼页面中的文本进行抽象、建模,对待分析页面的文本进行结构
处理和语义抽象,最终将语句抽象成为不同的逻辑关系,得到文本的语义描述模型。
1.1 文本结构处理
文本结构处理是对文本分词得到的元素重新整合的过程,最终的处理结果是将原始文本
转换成具有层次结构的用于语义描述的结构体。针对我们实际的钓鱼网页识别场景,在对文
65 本的结构处理过程中我们引入并定义了两个核心概念:钓鱼文本元素(Phish Text Element,
PTE)和钓鱼文本单元(Phish Text Unit,PTU)。
定义1:待分析网页的文本记为T,若满足: { | ... } 1 2 3 T E E E E T i = U U = ,其中i E 是对文
本分词获取的最小单元,则i E 称为钓鱼文本元素(Phish Text Element,PTE)。
定义2:将待分析网页文本记为有序集{ , , ...} 1 2 3 T = E E E ,其中i E 为PTE,若满足以下
关系{ | { , ...}, ... , } 1 12 1 2 3 = = = =ϕ i i i i i j T U U E E U UU UU T U IU 则称i 70 U 为钓鱼文本单元(Phish
Text Unit,PTU)。
通过对文本进行切分和内容解析,最终将原始文本转化为一个PTU 集合的结构体:
{ | { ...}, ... , , , , 1,2,3...} 1 2 3 1 2 1 T = U U = E E E U U = T U U = im < jn i j = i i i i i j U U U I ϕ
这个结构体是构建语义描述模型的基础,其构成元素PTU 和PTE 是文本语义描述的对
75 象,以下将此结构体和其构成元素统称为描述对象(简称对象)。
1.2 描述模型
通过对当前本体描述方法的分析与实验,我们没有办法找到一种钓鱼领域本体合适的描
述模型,因此我们需要根据实际的钓鱼场景设计并实现我们自有的描述模型。描述逻辑(DL)
是本体的一种常用描述模型,一般包含两类知识库:Tbox 和Abox,其中Tbox 通过对概念
80 原语进行扩展的方式建立概念之间的层次和分类关系;Abox 通过学习的方法建立起实例之
间的语义关系[6]。本文借鉴了描述逻辑的思想设计出了针对钓鱼领域本体的钓鱼描述模型
PDM (Phishing Description Model),并提出了相应的描述规则,将描述对象进行概念扩展,
对其进行属性和关系两方面的描述。
定义3:一个描述对象的钓鱼领域本体特性(以下简称本体特性),是对对象本身属性
85 的表述,参照该领域本体的概念属性知识库,将对象本体特性表示如下:
1 U 2 U 3 L Obj _ att = Att Att Att
这个表达式表示的是对象Obj 的属性描述,其中Atti 表示的是概念属性知识库库中对象
所属的概念属性集。
定义4:一个描述对象的钓鱼领域关联特性(以下简称对象关联特性),是对对象之间
90 关系的描述。对象的关联特性可如下表示:
_ ... 1 2 3 Obj re = R U R U R
其中R R(Obj _ att,Obj _ att) i i =
这个表达式是对描述对象Obj 与其他对象之间关系的描述,其中
R R(Obj _ att,Obj _ att) i i = 是描述对象Obj 和i Obj 之间关系的逻辑表达式,对象i Obj 称为对象
95 Obj 的关联对象。这个描述过程不是以对象作为描述单元,而是将对象的本体特性作为描述
单元。即对象的关系描述是对对象的本体特性集合构造的逻辑表达式。
定义5:将一个对象Obj 的描述模型定义为一个二元体Obj _ d(Obj _ att,Obj _ re) ,包括对
象的本体特性和关联特性,如果二元体不完整,则将缺失部分记为φ ,例如Obj _ re 不存在,
则将Obj _ re 记为φ 。
100 定义6:本体元素,是在本体特性描述中以其本体出现,而不以概念属性集表述的特殊
元素。∃E ∈T ,满足E _ att = E ,则E 称为文本概念集合中的本体元素。
(1)PTE 描述模型
根据以上定义,PTE 的描述模型包括对PTE 的本体特性和关联特性的描述。
PTE 的本体特性描述需要参考一个领域概念属性知识库对PTE 进行概念扩展,这里参
105 考中科院的ICTCLAS 词法分析系统和概率词典,对钓鱼领域本体构建概念属性知识库,参
照该知识库得到PTE 的本体特性描述,将PTE 简记为E,则其本体特性表示为:
1 U 2 U 3L E _ att = Att Att Att
其中Att (i = 1,2L) i 是概念属性知识库中与E 相关的概念属性集。
PTE 的关联特性是对PTE 之间关联关系的表述,反映了文本的句法结构和文本元素在
110 语义网络中的关联信息。关联特性一般由相似文本训练得到,通常没有固定的描述模式,灵
活性较大,不是PTE 描述模型的必要组成部分。PTE 的关联特性表示如下:
_ ( _ , _ ) ( _ , _ )... 1 2 E re = R E att E att U R E att E att
将PTE 的描述模型记为二元体:
E _ d(E _ att,E _ re) 。
115 (2)PTU 描述模型
与PTE 描述模型类似,PTU 的描述模型也包括本体特性和关联特性。
PTU 的本体特性是构成PTU 的所有PTE 的描述模型的集合,反应了PTU 的基本特征,
是PTU 描述模型的必要组成部分。将PTU 简记为U,则其本体特性表示为:
_ { _ , _ , _ } 1 2 3 U att = E d E d E d L
120 PTU 的关联特性不是PTU 描述模型的必要组成部分,一般是对于PTU 之间位置关系的
约束,反应了文本的组织结构。PTU 的关联特性表示如下:
_ ( _ , 1 _ ) U ( _ , 2 _ )L U re = R U att U att R U att U att
对PTU 的描述模型记为二元体:
U _ d(U _ att,U _ re) 。
125 (3)文本语义描述模型
语义描述模型的建立,首先是对文本结构处理,得到文本语义的描述对象(PTU 集合
结构),然后对该描述对象中的所有PTU 构建描述模型,得到文本语义描述模型。设文本
为T,则文本的语义描述模型定义如下:
_ { _ , _ , _ } 1 2 3 T d = U d U d U d L
130 下面为文本语义描述模型的结构图:
图1 语义描述模型结构
Fig.1 Semantic description model
135 2 用于钓鱼网页识别的文本相似度比对方案
通过钓鱼领域本体对待分析文本的语义描述与抽象建模,将钓鱼页面中语句的词汇匹配
转化为语义理解层面的相似度比对。基于此分析方式,本文提出了相对应的页面文本相似度
比对方案,通过建立钓鱼网页的模板文本集,将输入文本与模板文本集中各文本进行相似度
计算,从而实现页面的最终识别。系统流程如图2 所示:
输入:比对文本t 和模板库文本集合{ , , ...} 1 2 3 140 P = p p p
输出:比对文本与模板库中文本相似度最大值
Step1:模板库中所有文本i p 构建语义描述对象,并对描述对象进行语义描述,得到模
板文本的语义描述模型集合:
P _ d = {p _ d | p _ d = {pu _ d | j = 1,2,3...}, i = 1,2,3...} i i j
145 Step2:对比对文本进行切分等方式处理,得到文本语义描述对象,并对其构建描述模
型,这里,只考虑描述对象中PTE 和PTU 的本体特性,将比对文本的语义描述模型表示为:
文本语义描
述模型
PTU1 . . .
. . .
PTUm
. . .
概念属性知识库
t _ d = {tu _ att | tu _ att = {te _ att | k = 1,2,3...},i = 1,2,3...} i i k ,其中tu att i _ 为PTU 的本体特性,
学术论文网Tag:代写论文 代写代发论文 代写职称论文 职称论文发表
|