用于钓鱼网页识别的文本相似度比对方案研究(2)_代写论文

te att k _ 为PTE 的本体特性。
Step3：依次取模板文件语义描述模型集合P _ d 中的元素p d i _ 与t _ d 比对，得到一个
150 相似度序列。
Step4：取相似度序列中最大值，作为文本t 与模板库P 的相似度。
图2 文本相似度比对流程
155 Fig.2 Chart: Text similarity matching process
2.1 模板文件的语义结构描述
设模板文件为P，模板文件的语义描述模型记p _ d 。
（1）文本预处理，得到描述对象
160 根据文本中的标点、特殊字符等对文本进行切割，得到句子集合，对句子进行精简、去
噪、合并，并对处理结果进行分词得到文本的PTE 集合结构( , , ) pe pe1 pe2 pe3L ，对此结构进
一步合并，得到文本的PTU 集合结构( , , ) pu pu1 pu2 pu3L ，其中
( , , ),( 1,2,3 ) pu = pe 1 pe 2 pe 3L i = L i i i i 并且pu U pu U pu L = pe 1 2 3 ，即得到了文本的描述对象。
（2）参考概念属性知识库，并针对模板文本进行严格的词法分析，将构成文本PTE 本
165 体特性的属性集合进行筛选，得到能反映模板文本特征的PTE 本体特性
U U L 1 2 3 _ i i i i pe att = Att Att Att 和关联特性pe re i _ ，得到模板文本中所有PTE 的描述模型
pe _ d( pe _ att, pe _ re) i i i 。
（3）在步骤2 的基础上得到模板文本PTU 的描述模型pu _ d( pu _ att, pu _ re) i i i ，这里的
PTE 和PTU 的描述模型中的关联特性部分暂时是不完善的，通过对匹配结果反馈信息分析
170 可以对关联特性修改和补充。
（4）得到一个待完善的模板文本语义描述模型p _ d = {pu _ d | i = 1,2,L} i 。
切分
概念属性
知识库
文本
相似度
分析筛选
去噪
模板库
匹配过程
信息统计
文本描述对象
语义描述模型
语义描述
模型
文本描述对象
切分
2.2 比对文本的处理
（1）首先也对文本进行预处理，得到待匹配文本的PTE 集合结构，然后去概念属性知
识库里查询PTE 的所有属性，得到PTE 的本体特性，设文本为t，文本的PTE 为i te ，将i te
的本体特性记为： 1 U 2 U 3L te _ att te _ att te _ att te _ att i i i i 175 = 。其中，
tei _ att j = Att j1 U Att j 2 U Att j 3L 。
（2）根据PTE 本体特性，得到构成文本的PTU i tu 的本体特性，记为：
tu _ att = {te _ att | k = 1,2,3L} i k
（3）这里暂不考虑比对文本描述模型中的关联特性部分，在以上基础上，得到比对文
180 本的描述模型，记为：
t _ d = {tu _ att | i = 1,2,3L} i
2.3 比对过程
定义7：本体特性匹配，其比对的对象是构成待比对文本和模板文本的PTE 本体特性，
设一个待比对文本的PTE m te 本体特性为1 U 2 U 3L te _ att te _ att te _ att te _ att m m m m =
，其中tem _ att j = Att j1 U Att j 2 U Att j3L ，一个模板文本的PTE n 185 pe 的本体特性为
1 U 2 L _ n n n pe att = Att Att ，若pe att te att n m _ ⊂ _ ，则m te 与n pe 本体特性匹配，对于本体元素，
只有当m n te = pe 时，才满足本体特性匹配。
定义8：关联特性匹配，包括PTE 关联特性匹配和PTU 关联特性匹配。设i to 为比对文
本中的PTE 或者PTU 对象（以下统称对象）， { , } to = to1 to2L ，to 为包含该类型对象的集合，
m 190 po 为模板文本中同类型的对象：
1 U 2 U 3L po _ re R R R m =
其中R R( po _ att, po _ att) i m i = 。将对象 m po 的关联对象的集合表示为po rel m _ ，如果i to 与
m po 本体特性匹配，且po po rel i m ∀ ⊂ _ ，若to j to ∃ ⊂ ，满足to j 与i po 本体特性匹配，则称对
象i to 在集合to 中与m po 关联特性匹配。特别的，对于两个PTU 对象i U 、m U ，在满足上述
对于to j 和m po 的关系约束基础上，必须还满足构成m U 的所有PTE 都能在的i 195 U 的PTE 集合
中找到关联特性匹配的对象。
对文本与模板关联特性匹配单元统计，进行以下相似度计算：
( , ) ( _ _ ) ( _ _ ) pt p pt t sim t p = n U n U ⋅ n U n U (1)
在公式（1）中， pt n _U 是文本与模板满足关联特性匹配的PTU 的个数， p 200 n _U 是模板
PTU 的个数， t n _U 是待比对文本PTU 的个数。
这个比对过程比对的对象是模板的语义描述模型p _ d 和待比对文本的语义描述模型
t _ d 。比对流程如图3 所示。
（1）统计p _ d 中PTU 描述模型的个数为max_ pu ，即：
p _ d {pu _ d | i 1,2 max_ pu} 205 = i = L ，统计t _ d 的PTU 描述模型的个数为max_ pu ，即
t _ d {tu _ d | i 1,2 max_tu} = i = L 。设统计变量M=1，N=1，COUNT=0。
（2）若M >= max_ pu 。执行（7）。否则，取p _ d 中单元描述pu d m _ 。
（3）取t _ d 中的PTU 描述模型tu d n _ 。
（4）若N >= max_ tu ，则M 值增1，执行（2）。
（5）对两个单元pu d m _ 和tu d n _ 进行比对，若描述模型pu d m _ 与tu d n 210 _ 对应的PTU
满足关联特性匹配，则N 增1，COUNT 增1，继续往下执行，否则，N 值增1，执行（3）。
（6）统计到目前为止的匹配情况，适时修改模板文本描述对象PTU 和PTE 的关联特
性。
（7）统计得到的满足关联特性匹配的PTU 的个数COUNT，根据公式（1），计算待
215 对比文本与模板文件的相似度：
sim(t, p) (n _U n _U ) (n _U n _U ) (COUNT max_ pu) (COUNT max_ tu) pt p pt t = ⋅ = ⋅
_ n tu d
_ m pu d
图3 比对过程流程图
220 Fig.3 Chart: Text similarity matching process
2.4 方案分析
该相似度比对方案是针对钓鱼网页识别的文本相似度比对方案，将待判定的网页文本与
钓鱼页面模板库中的文本依次比对，从中选取相似度的最大值作为钓鱼识别的评判条件。
225 这里的相似度判定综合考虑了文本共有元素和元素组织结构两方面的因素，该方案基于
领域本体的概念，构造了一种适用于钓鱼领域的描述模型，将该领域文本相似度计算抽象成
文本语义描述模型的比对。这里的文本语义描述模型是一个包含了文本构成对象属性描述和
对象之间关联关系描述的二元体，其中的属性描述部分的构建反应了文本元素本身的特性，
对元素属性的抽象克服了词汇多义性的影响，在相似度比对过程中是文本共有元素特征评估
230 的重要元素。对象之间的关联关系的描述反应了对象的组织结构，在一定程度上反应了文本
的句子结构和整体结构，该方案将比对过程中关联关系的描述设置成可变的，能有效克服文
本结构复杂性对相似度计算精度的干扰。
经过以上的分析，该方案具有可行性。下面通过实验对该方案进行验证和进一步分析。
3 实验
235 本文设计了三个实验对上述比对方案进行了实现和验证。这三个实验对本方案中对相似
度的影响因子进行验证和比较。由于该语义描述模型构建中，文本构成对象的本体特性是相
对稳定的，这里主要研究关联特性因素的影响。本文将关联特性定义为对象位置关系的约束。
实验一：不考虑PTU 的关联特性，仅考虑PTE 的关联特性，未指定本体元素。在对文
本进行结构化处理过程中，按照文本句子结构构造PTU，将PTU 的关联特性置φ ，将PTE
240 在PTU 中的位置作为PTE 的关联特性。进行匹配的时候构成比对文本与模板的PTE 不仅满
足本体特性匹配，且满足PTE 在PTU 中的位置相同。
实验二：在实验一基础上修改了PTE 的关联特性。与实验一相同的是，PTU 关联特性
置空，即不考虑PTU 的位置关系，不同的是，这里指定了本体元素，而且仅将元素的关联
特性定义为PTE 在PTU 中的相对位置关系，即忽略匹配文本中不满足本体特性匹配的PTE
245 元素，这里不考虑本体元素的位置关系，即本体元素的关联特性置空。在匹配的时候，待匹
配文本必须包含模板中的本体元素，除本体元素之外，其它PTE 的匹配仅包括PTE 本体特
性匹配，且满足PTE 在PTU 中的相对位置关系相同。
实验三：在实验二的基础上增加了PTU 关联特性匹配，依据本体元素将句子切分成更
小的二级PTU，这样整个文本就包括以句子为单位的基本PTU 和构成句子的二级PTU，匹
250 配的时候不考虑基本PTU 之间的相对位置关系，仅考虑二级PTU 的相对位置，而所有PTE
（包括本体元素）的匹配都要考虑相对位置关系。
实验一到实验三依次增加了语义限定条件，通过这三个实验来验证基本语义限定条件的
作用，并且通过对比，研究改变PTE 关联特性和增加PTU 关联特性对相似度比对的影响。
3.1 数据来源
255 本文从中国反钓鱼联盟（APAC）和国际反钓鱼工作组（APWG）提供的中文钓鱼URL
中随机提取700 条，经检测，得到有效的URL 640 条，从华为赛门铁克公司的钓鱼网页数
据库中抽取有效的中文钓鱼URL436 条，共得到有效钓鱼URL1076 条。借助独立的网络爬
虫工具，从现网上随机抓取673 条非钓鱼URL，这些URL 涉及金融、游戏、社交等各个类
型的网页。对其检测，得到有效的非钓鱼URL 668 条。最终，得到待检测的有效URL1744
260 条。
3.2 实验结果
（1）性能比较：
本文采用了标准的信息检索准则，设定不同的相似性判断阈值，得到召回率—精确度曲
线：
265
图4 召回率-精度曲线
Fig.4 Curve: Recall-precision
下表是经过大量统计学习得到的三种方式最终相似度判定阈值和各个对应统计量：
270 表1 相似度比对结果统计
Tab.1 Statistical resulting data of similarity comparison
阈值召回率精确度准确性 F值
实验一 0.004552 0.911628 0.983936 0.936281 0.946403
实验二 0.003284 0.970260 0.978444 0.968463 0.974335
实验三 0.002888 0.953532 0.995150 0.968463 0.973897
如图和表所示，随着召回率的变化，实验二和实验三的精确度整体趋势明显优于实验一，
比较三者的判定阈值上的统计量，可知：实验三、实验二准确性和召回率以及系统整体性能
275 （F 值大小）相近，优于实验一。
（2）效率比较
统计三个实验对句子处理的长度信息，绘制其时间-长度曲线：
280 节点表示的长度范围:横坐标每个节点表示10 个词的长度范围，比如：
0：1-11，1：11-21，2：21-31，3：31-41，以此类推。
图5 处理时间曲线
Fig.5 Curve: Time of processing
285 由图可知，实验三效率最高，其次是实验一，实验二效率最低，其耗时是一和三耗时数
量级的十倍。
经过以上的实验和分析，可以得到以下结论：随着语义限定条件的增加，相似度比对系
统的性能呈现增强的趋势，然而，仅对PTE 关联规则的限定会导致比对效率的降低，考虑
PTU 的二次划分和增加PTU 关联规则能有效弥补这个缺陷。
学术论文网Tag：代写论文代写代发论文代写职称论文职称论文发表

搜索

热门标签:

用于钓鱼网页识别的文本相似度比对方案研究(2)