多标记学习：问题、算法与数据(2)_代写论文

的效果。Brinker 等人[34,35]在所有可能的概念标记基础上引入一个“虚拟标记(virtual label)”，
该虚拟标记用于分划样本的相关与无关标记。基于此，他们对基于“配对比较(pairwise
comparison)”的类别排序算法进行扩展以处理多标记学习问题。Barutcuoglu 等人[36]利用基
145 因功能分类系统提供的结构信息，使用Bayes 学习框架进行基因功能预测。
除了文本分类和生物信息学领域，多标记学习技术还被应用于场景分类问题。Boutell
等人[6]将多标记场景分类学习问题转化为多个独立的二类学习问题，并给出了多种预测准则
用于从各个二类分类器的输出确定测试样本的标记集。此外，多标记学习还在计算机视觉
[5,37]、关联规则挖掘(association rule mining)[38,39]等领域中得到了成功应用。此外，Jin 和
150 Ghahramani[40]还给出了另外一种多标记学习框架的定义，其中每个样本所对应的一组概念标
记中仅有一个标记是该样本的真实标记。
2.2 基准测试集
在多标记学习领域，研究者们相继给出了多个基准测试集用于评价多标记学习系统的性
能。本节将对几个常用的多标记数据集进行简要介绍：
基因功能分析1：酿酒酵母菌(yeast Saccharomyces 155 cerevisiae)是迄今为止研究得最为透彻
的一种有机体。具体来说，yeast 数据集中每个基因的描述综合了“微阵列表达数据
(microarray expression data)”以及“系统发生图谱(phylogenetic profile)”两方面的信息。
与此同时，每个yeast 基因对应于一个最大值可达190 的概念标记集合。现有的研究结
果表明，yeast 的基因功能对应于一个四层的类别层次结构2。Elisseeff 与Weston[4]仅考
160 虑四层类别层次结构的最高层，对yeast 数据集进行了简化处理。处理后的yeast 数据
集共含有2417 个基因，每个基因由103 维的属性向量表示。此外，该数据集共含有14
种可能的概念类，每个基因平均对应于4.24±1.57 个概念标记。有关该数据集更详细的
信息可参见文献[4,19,26]。
自然场景分类3：该数据集包含2000 幅自然场景图像，所有可能的概念类为desert,
165 mountains, sea, sunset 以及tress，每幅图像被人工标注了一组概念标记集合。在该数据
集中，具有两个或两个以上概念标记(例如“sea+sunset”)的图像约占数据集的22 ，而其
中某些类型的概念标记集合(例如“mountains+sunset+trees”)出现频率极低。每幅图像平
均对应于1.24±0.44 个概念标记，并采用文献[6]中的方法表示为相应的属性向量。首先，
图像被转化到图像数值差异与人的视觉感知差异较一致的CIE Luv 颜色空间。然后，使
170 用大小为7×7 的栅格将图像划分为49 个图像块，对于每一个图像块计算各彩色波段的
均值(相当于低分辨率的图像)与方差(相当于低计算开销的纹理特征)。最后，每幅图像
被表示为一个49×3×2=294 维的属性向量。有关该数据集更详细的信息可参见文献[26]。
Reuters 数据集4：该数据集是目前应用最为广泛的文档分类基准测试集，现已存在其多
种版本[1]。在多标记学习领域，Reuters-21578 Distribution 1.0 版本被广泛用于学习算法
175 的性能评价[2,14,19]。该数据集包含21578 个路透社(Reuters)在1987 年报道的新闻专线
(newswire)文档，其中仅有一半不到的文档具有人工赋予的概念标记。在将所有人工标
记缺失或者正文内容为空的文档去除后，剩余的每个文档可能对应于135 个概念类中的
若干类。所有可能的概念类对应于一个层次结构，目前大部分多标记学习算法的评价均
基于其最高层所含的9 个概念类。文献[2,14,19]采用相同的数据集生成方式，从
180 Reuters-21578 数据集中选取前k 个(k=3,…,9)包含最多文档的类别，所得数据集分别命
名为first3, first4,…, first9。基于此，使用特定的降维方法（如information gain 等）对向
量空间进行维度约简，然后使用 “Bag-of-Words”的方法[11]将每篇文档表示为一个属性向
量（如tf-idf 表示法）。有关该数据集更详细的信息可参见文献[2,19]。
1 http://mlkd.csd.auth.gr/multilabel.html#Datasets
2 http://mips.gsf.de/proj/yeast/catalogues/funcat/
3 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/annex/ miml-image-data.htm
4 http://www.daviddlewis.com/resources/testcollections/reuters21578/
自动网页分类5：该数据集包含来自门户网站“Yahoo.com ”的网页，该网站的最高层
共对应14 个分支（例如“Arts & Humanities”，“185 Bussiness & Economy”等）。最高
层的每一个分支均被进一步细分为一组第二层的 “子类（subcategories）”。基于第二
层子类的类别标记，最高层的每一个分支即可看作一个独立的多标记文档分类问题。研
究者们[10]共考察了上述14 个独立文档分类问题中的11 个。对于每一个文档分类问题，
训练集中含有2000 个训练文档而测试集中含有3000 个测试文档。其中，大部分文档
190 (20 ~45 )对应于两个或两个以上的类别标记。有关该数据集更详细的信息可参见文献
[10,19,25]。
3 进一步的工作
本文从问题定义，性能评价指标，学习算法以及基准数据集四个方面对标记学习的研究
现状作了简要综述。虽然目前多标记学习领域已经取得了大量的研究成果，但仍然存在一些
195 问题值得进一步深入研究：

学术论文网Tag：代写论文论文发表计算机论文代发论文职称论文发表

搜索

热门标签:

多标记学习：问题、算法与数据(2)