的效果。Brinker 等人[34,35]在所有可能的概念标记基础上引入一个“虚拟标记(virtual label)”, 该虚拟标记用于分划样本的相关与无关标记。基于此,他们对基于“配对比较(pairwise comparison)”的类别排序算法进行扩展以处理多标记学习问题。Barutcuoglu 等人[36]利用基 145 因功能分类系统提供的结构信息,使用Bayes 学习框架进行基因功能预测。 除了文本分类和生物信息学领域,多标记学习技术还被应用于场景分类问题。Boutell 等人[6]将多标记场景分类学习问题转化为多个独立的二类学习问题,并给出了多种预测准则 用于从各个二类分类器的输出确定测试样本的标记集。此外,多标记学习还在计算机视觉 [5,37]、关联规则挖掘(association rule mining)[38,39]等领域中得到了成功应用。此外,Jin 和 150 Ghahramani[40]还给出了另外一种多标记学习框架的定义,其中每个样本所对应的一组概念标 记中仅有一个标记是该样本的真实标记。 2.2 基准测试集 在多标记学习领域,研究者们相继给出了多个基准测试集用于评价多标记学习系统的性 能。本节将对几个常用的多标记数据集进行简要介绍: 基因功能分析1:酿酒酵母菌(yeast Saccharomyces 155 cerevisiae)是迄今为止研究得最为透彻 的一种有机体。具体来说,yeast 数据集中每个基因的描述综合了“微阵列表达数据 (microarray expression data)”以及“系统发生图谱(phylogenetic profile)”两方面的信息。 与此同时,每个yeast 基因对应于一个最大值可达190 的概念标记集合。现有的研究结 果表明,yeast 的基因功能对应于一个四层的类别层次结构2。Elisseeff 与Weston[4]仅考 160 虑四层类别层次结构的最高层,对yeast 数据集进行了简化处理。处理后的yeast 数据 集共含有2417 个基因,每个基因由103 维的属性向量表示。此外,该数据集共含有14 种可能的概念类,每个基因平均对应于4.24±1.57 个概念标记。有关该数据集更详细的 信息可参见文献[4,19,26]。 自然场景分类3:该数据集包含2000 幅自然场景图像,所有可能的概念类为desert, 165 mountains, sea, sunset 以及tress,每幅图像被人工标注了一组概念标记集合。在该数据 集中,具有两个或两个以上概念标记(例如“sea+sunset”)的图像约占数据集的22 ,而其 中某些类型的概念标记集合(例如“mountains+sunset+trees”)出现频率极低。每幅图像平 均对应于1.24±0.44 个概念标记,并采用文献[6]中的方法表示为相应的属性向量。首先, 图像被转化到图像数值差异与人的视觉感知差异较一致的CIE Luv 颜色空间。然后,使 170 用大小为7×7 的栅格将图像划分为49 个图像块,对于每一个图像块计算各彩色波段的 均值(相当于低分辨率的图像)与方差(相当于低计算开销的纹理特征)。最后,每幅图像 被表示为一个49×3×2=294 维的属性向量。有关该数据集更详细的信息可参见文献[26]。 Reuters 数据集4:该数据集是目前应用最为广泛的文档分类基准测试集,现已存在其多 种版本[1]。在多标记学习领域,Reuters-21578 Distribution 1.0 版本被广泛用于学习算法 175 的性能评价[2,14,19]。该数据集包含21578 个路透社(Reuters)在1987 年报道的新闻专线 (newswire)文档,其中仅有一半不到的文档具有人工赋予的概念标记。在将所有人工标 记缺失或者正文内容为空的文档去除后,剩余的每个文档可能对应于135 个概念类中的 若干类。所有可能的概念类对应于一个层次结构,目前大部分多标记学习算法的评价均 基于其最高层所含的9 个概念类。文献[2,14,19]采用相同的数据集生成方式,从 180 Reuters-21578 数据集中选取前k 个(k=3,…,9)包含最多文档的类别,所得数据集分别命 名为first3, first4,…, first9。基于此,使用特定的降维方法(如information gain 等)对向 量空间进行维度约简,然后使用 “Bag-of-Words”的方法[11]将每篇文档表示为一个属性向 量(如tf-idf 表示法)。有关该数据集更详细的信息可参见文献[2,19]。 1 http://mlkd.csd.auth.gr/multilabel.html#Datasets 2 http://mips.gsf.de/proj/yeast/catalogues/funcat/ 3 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/annex/ miml-image-data.htm 4 http://www.daviddlewis.com/resources/testcollections/reuters21578/ 自动网页分类5:该数据集包含来自门户网站“Yahoo.com ”的网页,该网站的最高层 共对应14 个分支(例如“Arts & Humanities”,“185 Bussiness & Economy”等)。最高 层的每一个分支均被进一步细分为一组第二层的 “子类(subcategories)”。基于第二 层子类的类别标记,最高层的每一个分支即可看作一个独立的多标记文档分类问题。研 究者们[10]共考察了上述14 个独立文档分类问题中的11 个。对于每一个文档分类问题, 训练集中含有2000 个训练文档而测试集中含有3000 个测试文档。其中,大部分文档 190 (20 ~45 )对应于两个或两个以上的类别标记。有关该数据集更详细的信息可参见文献 [10,19,25]。 3 进一步的工作 本文从问题定义,性能评价指标,学习算法以及基准数据集四个方面对标记学习的研究 现状作了简要综述。虽然目前多标记学习领域已经取得了大量的研究成果,但仍然存在一些 195 问题值得进一步深入研究: 学术论文网Tag:代写论文 论文发表 计算机论文 代发论文 职称论文发表 |