多任务学习的研究_代写论文

多任务学习的研究#
张敏灵*
基金项目：教育部博士点基金新教师项目（200802941009）
作者简介：张敏灵，(1979-)，男，副教授，主要研究方向：机器学习、数据挖掘. E-mail: zhangml.seu@gmail.com
（东南大学计算机科学与工程学院，南京 210096）
5 摘要：多任务学习起源于机器学习领域对归纳偏置问题的研究，该学习范式通过对多个相关
任务同时进行学习，利用任务之间传递的有用信息，以获取更优的归纳偏置用于假设空间搜
索。由于多任务学习在提高学习系统泛化能力方面具有显著的能力，该课题已成为目前国际
机器学习界的一个研究热点。本文将对多任务学习的研究现状做一个简要介绍，并对未来的
研究工作进行展望。
10 关键词：机器学习；多任务学习；懒惰学习；多示例学习；多标记学习
中图分类号：TP181
0 引言
国际机器学习界的权威T. M. Mitchell 认为，机器学习就是对一类特殊计算机算法的研
究，这类算法可以从以往的经验中不断学习，从而提升其在处理特定“任务(task)”时的性
30 能[1]。一般情况下，学习系统根据从导师或者环境中获取的训练示例进行学习，以尽可能正
确地对训练集之外的示例进行预测或其它方式的处理。此时，与任务相关的经验蕴涵在训练
示例中，而学习系统的目标就是提高其处理未知样本时的性能，即泛化能力。传统的机器学
习技术主要针对单任务学习(single-task learning)问题，此时训练集中的所有示例均反映了单
个任务的信息。在实际应用中，由于受到时间、人力、经济等多种因素的制约，人们往往只
35 能获得与某个任务相关的有限甚至少量示例。因此，在遇到训练样本不充分的情况时，学习
系统将很难获取足够的信息进行学习以得到具有强泛化能力的模型。
虽然目前大多数机器学习技术主要面对的是单个任务的学习场景，但在真实世界中多个
相关的学习任务往往是同时出现的。例如，当一名守门员在学习如何扑救时，并不是单纯地
学习如何去扑球，而是会涉及许多相关的学习内容，比如如何进行预判，如何移动脚步，如
40 何腾身起跳，如何平稳落地等。实际上，人类在学习如何完成一项任务时，往往都需要对一
些与该任务相关的任务进行学习并从中汲取经验，从而起到举一反三与融会贯通的作用。人
类的学习过程如此，计算机在解决实际问题时的情形也十分相似。例如，在计算机辅助医疗
诊断中，系统在根据病人的症状判断一个人是否患有某种疾病时，如果还能利用该病人的其
它一些健康方面的信息(例如相关的并发症等)，将有助于学习问题的解决[2,3]；在个性化软件
45 设计中，同时学习多个用户在进行某项操作(如过滤垃圾邮件)时各自的行为习惯，将有助于
发现用户之间的共性以及个性特征[4]。
由此可见，解决真实世界的问题往往需要面对多个相关的学习任务，而如何利用多个相
关任务之间蕴涵的有价值的信息来提高学习系统的性能，正是“多任务学习(multi-task
learning)”[2,3]所面临的核心问题。本文接下来将对多任务学习研究的起源和研究现状进行简
50 要介绍，然后对该研究领域进一步的研究工作进行展望。
1 研究进展
多任务学习早期的研究工作源于对机器学习中的一个重要问题，即“归纳偏置(inductive
bias)”问题的研究。机器学习的过程可以看作是对与问题相关的经验数据进行分析，从中归
纳出反映问题本质的模型的过程。归纳偏置的作用就是用于指导学习算法如何在模型空间中
55 进行搜索，搜索所得模型的性能优劣将直接受到归纳偏置的影响，而任何一个缺乏归纳偏置
的学习系统都不可能进行有效的学习[5]。不同的学习算法(如决策树，神经网络，支持向量
机等)具有不同的归纳偏置，人们在解决实际问题时需要人工地确定采用何种学习算法，实
际上也就是主观地选择了不同的归纳偏置策略。一个很直观的想法就是，是否可以将归纳偏
置的确定过程也通过学习过程来自动地完成，也就是采用“学习如何去学(learning to learn)”
60 [6]的思想。多任务学习恰恰为上述思想的实现提供了一条可行途径，即利用相关任务中所包
含的有用信息，为所关注任务的学习提供更强的归纳偏置。
受上述思想的启发，R. Caruana 对多任务学习的相关问题，如什么是多任务学习，该学
习范式是否可行、为什么可行、在什么情况下可行等进行了初步的分析。1997 年，其主要
研究成果发表于国际机器学习界的权威刊物《Machine Learning》，标志着多任务学习这一
65 机器学习概念的正式提出[2]。R. Caruana 解决多任务学习问题的方法其实比较简单，他首先
构造一个前馈神经网络，该网络的隐层结点为所有任务共享而每个任务则对应于一个输出结
点。在神经网络的训练过程完成后，输入结点到隐层结点的连接权中即包含了所有任务之间
的共享信息，而各个任务自身的特定信息则位于隐层结点到各输出结点的连接权中。虽然
R. Caruana 所采用的多任务学习方法并不复杂，但是却在自动车辆驾驶、机器人目标识别以
70 及辅助医疗诊断等领域得到了成功应用[2,3]。类似的基于神经网络的方法还出现在其他一些
研究者的工作中[7,8]。
作为一种新的机器学习范式，多任务学习引起了机器学习理论研究者的关注。J. Baxter[9]
对传统的VC 维[10]概念进行了扩展，定义了扩展VC 维用于度量多个假设空间构成的“簇”
的复杂度。基于扩展VC 维的概念，J. Baxter 给出了一个学习系统在对T 个学习任务进行学
75 习时，所得模型在T 个任务上的平均错误率上界，并且证明该上界将随着任务数目T 的增
加而不断减小。此外，J. Baxter[11]还从信息论和贝叶斯学习的角度出发，分析了从T 个任务
进行有效的学习时各个任务所需提供的信息量。同样基于扩展VC 维的概念，S. Ben-David
与R. Schuller[12]扩展了J. Baxter[9]关于多个任务平均错误率上界的分析工作，得出了一个关
于单个任务的更紧的错误率上界。这些研究成果的取得对多任务学习为什么有效给出了一个
80 理论上的初步解释。
除了上述的理论分析工作之外，机器学习的研究者们还对多任务学习进行了大量的应用
方法研究，主要包括基于正则化的方法以及基于层次贝叶斯模型的方法。T. Evgeniou 等人[13]
基于他们早期在多任务学习方面的工作[14,15]，提出了一种多任务学习的正则化框架，并且基
于针对向量输出函数的核方法[16]将多任务学习的正则化问题转为传统的单任务学习问题求
85 解。R. Ando 与T. Zhang[17]考察了如何利用多个相关任务来进行结构学习，以找出多个任务
的共享结构表示。与此同时他们还给出了如何利用未标记数据来生成结构学习所需的辅助任
务，为半监督学习问题的解决提供了一条新途径。B. Bakker 与T. Heskes[18]对他们的初期工
作[19,20]进行了扩展，将R. Caruana 关于多任务神经网络学习的工作与统计领域内的“多层分
析”技术[21]相结合，给出了一种基于多层贝叶斯结构的多任务学习方法。该方法中各个任
90 务不仅共享输入层与隐层之间的连接权，与各任务特定的隐层与输出层之间的连接权也通过
一个共同的先验概率模型实现松散的关联。除此之外，研究者们还相继提出了多种利用随机
过程来对多任务学习进行建模的方法，例如使用高斯过程[22-24]，Markov 过程[25-27]，Dirichlet
过程 [28,29]，以及t 过程[30]等。
除了上述基于正则化与层次贝叶斯模型的方法，还出现一些基于Logistic 回归[31]、径向
95 基函数网络[32]、支持向量机[33]以及独立成分分析 [34]等技术的多任务学习方法。此外，研究
者们还对多任务学习范式下的属性选择问题进行了研究，此时学习系统的目标是为多个任务
寻找一个共享的输入属性空间，从而基于转化后的表示空间进行学习以得到泛化能力更强的
预测模型[35-37]。目前，多任务学习技术已在模式识别[3][28][31]、辅助医疗诊断[2,3]、数据挖掘
[18][20]、软件设计[23][38] 、语音处理[39]等多个领域中得到了成功应用。显然，多任务学习不仅
100 具有较高的理论研究价值，还具有广阔的应用前景。近期，国际机器学习界的权威会议
ICML’05，NIPS’05 以及ECML’07 分别设置了主题为“Meta-Learning”，“Inductive Transfer:
10 Years Later”以及“Planning to Learn”的Workshop，内容均涉及多任务学习。仅在2007
年，在权威会议ICML’07 以及NIPS’07 上就出现了8 篇与多任务学习相关的研究论文，占
到了相当可观的比重。如此活跃的国际学术交流现状表明，多任务学习已成为目前国际机器
105 学习界的一大研究热点，并逐渐迎来了其发展的一个高峰阶段。
2 进一步的工作
上一节对多任务学习的研究现状作了一个简要介绍。结合多任务学习的研究现状以及作
者自身的研究基础，本节将对多任务学习有待进一步研究的问题进行讨论。
R. Caruana[2,3]在提出多任务学习范式时，主要采用了多层前馈神经网络来实现任务之间
110 的信息传递。但他特别指出，多任务学习决不仅仅归于一种单一的算法，而应该是问题求解
思想，求解技术以及求解算法的有机结合体。然而，作为一类重要的机器学习技术，目前尚
未出现基于懒惰学习(lazy learning)技术[40]的多任务学习算法。与目前多任务学习方法大多采
用的“积极学习(eager learning)”技术不同，懒惰学习技术不需要预先进行模型训练，而是
在获得待处理样本后进行实时处理，特别适合增量学习的需要。设计出基于懒惰学习技术的
115 多任务学习算法，在理论与应用两方面都有较高的价值。
已有研究成果表明，在许多情况下多任务学习范式的确比传统的单任务学习范式具有更
强的问题求解能力。我们认为，多任务学习之所以在很多情况下有效，在真实世界对象中普
遍存在的歧义性(ambiguity)[41]也许是根本原因之一。这一点从直观上是很容易理解的：由于
对象具有歧义性，因此学习系统无法准确地获取对象的语义信息，这些不准确的输入信息将
120 对基于归纳偏置的假设空间搜索过程带来很大的负面影响。然而，考虑到多任务学习在获取
强归纳偏置上的独特能力[2,3]，在需要对歧义性对象进行分析与建模时，学习系统获得的强
学术论文网Tag：代写论文论文发表计算机论文代发论文职称论文发表

搜索

热门标签:

多任务学习的研究