为CreateFittingCurve 算法的样本数据来源构建了目标拟合曲线函数,表3-1 是使用 CreateFittingCurve 算法构造的部分特征单词的拟合系数: 120 表3-1 WSCE 爬取的部分URL 机器对应网页的相似度 特征单词 拟合系数 特征单词 拟合系数 特征单词 拟合系数 api 0.5191 aips 0.0342 call 0.0383 code 0.0621 create 0.0401 data 0.1238 error 0.0604 example 0.0630 get 0.1194 json 0.0637 method 0.0729 response 0.1051 注: 计算的相似度只取前5 为有效数字 为了测试WSRA-BALR 算法的可用性,本文构建了测试网页集合,该集合包含服务网 页和普通网页,其中普通网页是用爬虫引擎随机的从互联网上下载的97 个HTML 网页,和 125 服务网页是随机的从programmableWEB 上下载的74 个非训练集的非结构化服务。下文以测 试集合为目标从非结构化服务的召回率(Recall Rate),准确率(Precision)两方面进行实验分析 如表4-6 所示。其中召回率是指从服务库中返回的真实的服务总数占服务库中存在的服务总 数的比例;准确率是指服务库中返回的所有服务中,真实服务占所有服务的比重。如果以n 表示服务库中真实存在的服务总数,m 表示使用网页过滤算法发现的服务总数,但这m 个 服务中只有k 个是真实的服务,则召回率= k n ,准确率= k m 130 。 表3-2 基于线性回归的WEB 服务识别算法的召回率和准确率分析 阈值 选择 预测成功的 服务网页数 预测失败的 服务网页数 预测成功的 普通网页数 预测失败的 普通网页数 召回率 准确率 0.5-1.5 64 10 81 16 86.4% 80% 0.6-1.4 59 15 86 11 79.7% 84.3% 0.7-1.3 49 25 89 8 66.2% 85.9% 由表3-2 可以明确的看出随着阈值范围的缩小,召回率在减小而准确率在增加,这是 135 符合实际情况的,在本文试验中,选取阈值为0.6~1.4,可以将召回率和准确率控制在双赢 的趋势中,达到较好的预测非结构化WEB 服务的目的。 4 结论及将来的工作 本文提出了一种基于线性回归的非结构化WEB 服务预测方法,重点对算法系列中的基 于线性回归的目标拟合曲线的构造算法和基于线性回归的非结构化WEB 服务识别算法进行 140 了描述,并通过实验及实验结果分析表明该算法可以预测大部分的非结构WEB 服务。在将来 的工作中,需要考虑对基于线性回归的目标拟合曲线的构造算法的改进,使得拟合参数及特 征单词的取值更加合理,对基于线性回归的非结构化WEB 服务识别算法进行改进和优化等。 学术论文网Tag:代写论文 电子论文代写 代写代发论文 代写毕业论文 论文发表 代发论文 |