学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

多标记学习:问题、算法与数据(2)


的效果。Brinker 等人[34,35]在所有可能的概念标记基础上引入一个“虚拟标记(virtual label)”,
该虚拟标记用于分划样本的相关与无关标记。基于此,他们对基于“配对比较(pairwise
comparison)”的类别排序算法进行扩展以处理多标记学习问题。Barutcuoglu 等人[36]利用基
145 因功能分类系统提供的结构信息,使用Bayes 学习框架进行基因功能预测。
除了文本分类和生物信息学领域,多标记学习技术还被应用于场景分类问题。Boutell
等人[6]将多标记场景分类学习问题转化为多个独立的二类学习问题,并给出了多种预测准则
用于从各个二类分类器的输出确定测试样本的标记集。此外,多标记学习还在计算机视觉
[5,37]、关联规则挖掘(association rule mining)[38,39]等领域中得到了成功应用。此外,Jin 和
150 Ghahramani[40]还给出了另外一种多标记学习框架的定义,其中每个样本所对应的一组概念标
记中仅有一个标记是该样本的真实标记。
 2.2 基准测试集
在多标记学习领域,研究者们相继给出了多个基准测试集用于评价多标记学习系统的性
能。本节将对几个常用的多标记数据集进行简要介绍:
 基因功能分析1:酿酒酵母菌(yeast Saccharomyces 155 cerevisiae)是迄今为止研究得最为透彻
的一种有机体。具体来说,yeast 数据集中每个基因的描述综合了“微阵列表达数据
(microarray expression data)”以及“系统发生图谱(phylogenetic profile)”两方面的信息。
与此同时,每个yeast 基因对应于一个最大值可达190 的概念标记集合。现有的研究结
果表明,yeast 的基因功能对应于一个四层的类别层次结构2。Elisseeff 与Weston[4]仅考
160 虑四层类别层次结构的最高层,对yeast 数据集进行了简化处理。处理后的yeast 数据
集共含有2417 个基因,每个基因由103 维的属性向量表示。此外,该数据集共含有14
种可能的概念类,每个基因平均对应于4.24±1.57 个概念标记。有关该数据集更详细的
信息可参见文献[4,19,26]。
 自然场景分类3:该数据集包含2000 幅自然场景图像,所有可能的概念类为desert,
165 mountains, sea, sunset 以及tress,每幅图像被人工标注了一组概念标记集合。在该数据
集中,具有两个或两个以上概念标记(例如“sea+sunset”)的图像约占数据集的22 ,而其
中某些类型的概念标记集合(例如“mountains+sunset+trees”)出现频率极低。每幅图像平
均对应于1.24±0.44 个概念标记,并采用文献[6]中的方法表示为相应的属性向量。首先,
图像被转化到图像数值差异与人的视觉感知差异较一致的CIE Luv 颜色空间。然后,使
170 用大小为7×7 的栅格将图像划分为49 个图像块,对于每一个图像块计算各彩色波段的
均值(相当于低分辨率的图像)与方差(相当于低计算开销的纹理特征)。最后,每幅图像
被表示为一个49×3×2=294 维的属性向量。有关该数据集更详细的信息可参见文献[26]。
 Reuters 数据集4:该数据集是目前应用最为广泛的文档分类基准测试集,现已存在其多
种版本[1]。在多标记学习领域,Reuters-21578 Distribution 1.0 版本被广泛用于学习算法
175 的性能评价[2,14,19]。该数据集包含21578 个路透社(Reuters)在1987 年报道的新闻专线
(newswire)文档,其中仅有一半不到的文档具有人工赋予的概念标记。在将所有人工标
记缺失或者正文内容为空的文档去除后,剩余的每个文档可能对应于135 个概念类中的
若干类。所有可能的概念类对应于一个层次结构,目前大部分多标记学习算法的评价均
基于其最高层所含的9 个概念类。文献[2,14,19]采用相同的数据集生成方式,从
180 Reuters-21578 数据集中选取前k 个(k=3,…,9)包含最多文档的类别,所得数据集分别命
名为first3, first4,…, first9。基于此,使用特定的降维方法(如information gain 等)对向
量空间进行维度约简,然后使用 “Bag-of-Words”的方法[11]将每篇文档表示为一个属性向
量(如tf-idf 表示法)。有关该数据集更详细的信息可参见文献[2,19]。
1 http://mlkd.csd.auth.gr/multilabel.html#Datasets
2 http://mips.gsf.de/proj/yeast/catalogues/funcat/
3 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/annex/ miml-image-data.htm
4 http://www.daviddlewis.com/resources/testcollections/reuters21578/
  自动网页分类5:该数据集包含来自门户网站“Yahoo.com ”的网页,该网站的最高层
共对应14 个分支(例如“Arts & Humanities”,“185 Bussiness & Economy”等)。最高
层的每一个分支均被进一步细分为一组第二层的 “子类(subcategories)”。基于第二
层子类的类别标记,最高层的每一个分支即可看作一个独立的多标记文档分类问题。研
究者们[10]共考察了上述14 个独立文档分类问题中的11 个。对于每一个文档分类问题,
训练集中含有2000 个训练文档而测试集中含有3000 个测试文档。其中,大部分文档
190 (20 ~45 )对应于两个或两个以上的类别标记。有关该数据集更详细的信息可参见文献
[10,19,25]。
3 进一步的工作
本文从问题定义,性能评价指标,学习算法以及基准数据集四个方面对标记学习的研究
现状作了简要综述。虽然目前多标记学习领域已经取得了大量的研究成果,但仍然存在一些
195 问题值得进一步深入研究:

学术论文网Tag:代写论文 论文发表 计算机论文 代发论文 职称论文发表
本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容