基于局部稀疏K近邻密度的主动学习_代写论文

基于局部稀疏K 近邻密度的主动学习
汪婵，程玉虎，王雪松
（中国矿业大学信息与电气工程学院，江苏徐州 221116）
摘要：在选择含信息量大的样本时，基于不确定度缩减的主动学习算法通常会将孤立点一并
加入训练集，从而影响分类效果。为此，提出一种基于局部稀疏K 近邻密度的主动学习算
法，采用近邻密度来判定未标记样本是否为孤立点，并考虑未标记样本周边样本的稀疏程度，
减少将非均匀分布样本集中的孤立点当作正常样本点及将正常样本点当作孤立点的错误。典
型UCI 和人工数据集上的仿真结果表明，与基于密度重排序的主动学习算法相比，所提算
法能够取得较好的分类性能。
关键词：主动学习；信息熵；孤立点；K 近邻密度
0 引言
近年来，主动学习算法被广泛应用于各领域，如机器翻译[1]、遥感影像分类[2]和图像检
索[3]等。主动学习算法主动选择包含信息量大的未标记样本并交由专家进行标注，从而在已
标记样本较少的情况下仍能达到较好的学习效果[4]。根据获得未标记样本的方式不同，主动
学习算法可以分为基于流和基于池2 种。目前，研究比较充分的是基于池的样本选择算法。
基于不确定度缩减的方法为基于池的样本选择算法中的一种，它选择那些当前基准分类器最
不能确定其类别的样本进行标注。这种方法以信息熵作为衡量样本所含信息量大小的度量，
而信息熵最大的样本正是当前分类器最不能确定其类别的样本。其优点是它可以应用于任何
形式的基分类器，但在选择样本时可能会采集到孤立点[5]。孤立点是在数据集中与众不同的
样本，其偏离样本的总体分布，是一种噪声信息，若将这样的样本加入训练样本集，会降低
分类器的分类效果。为此，有学者对这一问题进行了研究，Shen 等[6]提出根据含信息量、代
表性和多样性来选择样本的方法，其缺点是难以自动确定方法中需要的系数，并且其系数随
着应用情况的不同而变化。Roy 等[7]提出直接对待测试样本的未来错误率进行优化，然而在
基金项目：高等学校博士学科点专项科研基金(200802901506); 霍英东教育基金会青年教师基金(121066)
作者简介：汪婵(1988- ), 女, 硕士研究生, 主要研究方向: 主动学习
实际应用中，此方法由于过高的计算成本难以从大的样本池中选择最有价值的样本。为解决
早期方法中存在的缺陷，Zhu 等[8]提出一种基于密度重排序的主动学习算法来筛选孤立点，
但当样本分布不均匀时，该算法就无法检测出真正的孤立点，反而会将含信息量大的正常样
本点错当孤立点剔除，从而影响分类效果。针对这一问题，提出一种基于局部稀疏K 近邻
密度的主动学习（active learning based on K-nearest neighbor density of local sparse，KLS）。
1 孤立点问题描述
基于不确定度缩减的主动学习选择那些当前基准分类器最不能确定其所属类别的样本，
从几何角度看，其优先选择的是靠近分类边界的样本，故又称为最近边界方法[4]。在信息论
中，通常用信息熵来度量某一事件结果的不确定程度。信息蕴含在不确定性中，不确定性越
大，则信息量就越大[5]。信息熵描述如下：
H(x) P( y | x)logP( y | x)
Y y
Σ∈
= − （1）
其中， x 为样本；样本标签{ } n y Y y1,y2,
学术论文网Tag：代写论文论文发表代写工科论文职称论文发表

搜索

热门标签:

基于局部稀疏K近邻密度的主动学习