Ensemble Learning现在基本上就叫集成学习。相关的概念有上面说的多模型系统(这
实际上在很大程度上对应了机器学习里面的多专家混合)、Committee Learning、
Modular systems、多分类器系统等等。这些概念相互之间有非常密切的联系,但仔细
来说还是有些区别。问题是对这些概念的界定,目前并没有什么共识,有时不同的人在
用不同的术语说同一个东西,也有时是用同一个术语说不同的东西,所以区别也只能是
各说各话了。个人认为,集成学习一个非常重要的性质就是个体学习器是为同一个问题
进行学习,这与分而治之式地把问题分解为若干个子问题,然后再想办法从个别解求得
整体解是不同的,因为前者导致了学习的难点在于个体学习器差异的获得,而后者则在
差异上没有难点(因为个体本来就是解决不同的问题),而在问题分解上很困难。换一
个角度来说,对集成学习系统来说,随便把它的一个个体学习器拿出来,都是能解决整
个问题的,而对后面的这种系统来说,拿出一个个体学习器只能解决一个子问题,不能
解决整个问题。和后者最对应的应该是Modular system,多专家混合也非常偏向于后者。
Committe learning和集成学习要相近一些。而多分类器系统,则是在分类器意义上的
全包含。大家的最终目标实际上都是一样的,但由于途径不同,面对的难点就不太
一样了,所以研究重点也不太一样。另外,有的东西,很难严格地说它属于某一类。
不过,对到底什么是ensemble learning,现在并没有界定清楚。我们姑且把前面的提法
称为狭义的ensemble learning,而把只要利用多个学习器就叫ensemble的这种称为
广义的ensemble learning
把贝叶斯理论和统计学习理论为标准划出两大类,未必合适。贝叶斯理论和统计学习
理论本来就不是对立的两个东西。实际上,ensemble learning这个词最早是被做贝叶斯
的人用出来的,而多学习器的思想很早以前就有了,但没有一个特别的名字,这也在一
定程度上导致了前面提到的那么多相关的概念,后来ensemble learning这个词慢慢地被
扩展到非贝叶斯学习系统,然后又慢慢地生长,到现在基本上就有了前面说的含义。在
ensemble learning的内涵还没有被清楚地界定出来之前,对它的分类是很困难甚至
不可能的。
这个问题应该还是open problem。虽然Dietterich在他的一系列文章里给出了一些
说法,但这些说法我不太认为是真正的“有效性理论基础”,说成是猜想或者直观解释
可能更合适些。个人认为,由于ensemble learning的内涵并没有清楚的界定,叫这个
名字的很多东西其实是利用了不同的机制,所以其有效性的理论基础未必是一样的。这
方面关于boosting类讨论得比较多,对bagging的讨论最近也开始有了。最终我们可能会
得到不同的有效性机制,然后可能根据不同的机制划分出不同的类别,但这是若干年后
的事了。
boosting、bagging、stacking的文章应该是要看的,Krogh和Vedelsby的文章是重要的。
Ditterich在AI Mag97的文章也值得读。由于ensemble learning的内涵并没有界定清楚,
所以涉及的东西太多,目前还远没有到能很清楚地把这个领域的知识系统化的程度。
机器学习、模式识别、信息融合等等都有大量有关的内容,现阶段很难开出一个清楚的
单子。但是不妨把最近几年top journal和top conference上的有关文章找来看看。
转 自 NJU baihe Daniel
实际上在很大程度上对应了机器学习里面的多专家混合)、Committee Learning、
Modular systems、多分类器系统等等。这些概念相互之间有非常密切的联系,但仔细
来说还是有些区别。问题是对这些概念的界定,目前并没有什么共识,有时不同的人在
用不同的术语说同一个东西,也有时是用同一个术语说不同的东西,所以区别也只能是
各说各话了。个人认为,集成学习一个非常重要的性质就是个体学习器是为同一个问题
进行学习,这与分而治之式地把问题分解为若干个子问题,然后再想办法从个别解求得
整体解是不同的,因为前者导致了学习的难点在于个体学习器差异的获得,而后者则在
差异上没有难点(因为个体本来就是解决不同的问题),而在问题分解上很困难。换一
个角度来说,对集成学习系统来说,随便把它的一个个体学习器拿出来,都是能解决整
个问题的,而对后面的这种系统来说,拿出一个个体学习器只能解决一个子问题,不能
解决整个问题。和后者最对应的应该是Modular system,多专家混合也非常偏向于后者。
Committe learning和集成学习要相近一些。而多分类器系统,则是在分类器意义上的
全包含。大家的最终目标实际上都是一样的,但由于途径不同,面对的难点就不太
一样了,所以研究重点也不太一样。另外,有的东西,很难严格地说它属于某一类。
不过,对到底什么是ensemble learning,现在并没有界定清楚。我们姑且把前面的提法
称为狭义的ensemble learning,而把只要利用多个学习器就叫ensemble的这种称为
广义的ensemble learning
把贝叶斯理论和统计学习理论为标准划出两大类,未必合适。贝叶斯理论和统计学习
理论本来就不是对立的两个东西。实际上,ensemble learning这个词最早是被做贝叶斯
的人用出来的,而多学习器的思想很早以前就有了,但没有一个特别的名字,这也在一
定程度上导致了前面提到的那么多相关的概念,后来ensemble learning这个词慢慢地被
扩展到非贝叶斯学习系统,然后又慢慢地生长,到现在基本上就有了前面说的含义。在
ensemble learning的内涵还没有被清楚地界定出来之前,对它的分类是很困难甚至
不可能的。
这个问题应该还是open problem。虽然Dietterich在他的一系列文章里给出了一些
说法,但这些说法我不太认为是真正的“有效性理论基础”,说成是猜想或者直观解释
可能更合适些。个人认为,由于ensemble learning的内涵并没有清楚的界定,叫这个
名字的很多东西其实是利用了不同的机制,所以其有效性的理论基础未必是一样的。这
方面关于boosting类讨论得比较多,对bagging的讨论最近也开始有了。最终我们可能会
得到不同的有效性机制,然后可能根据不同的机制划分出不同的类别,但这是若干年后
的事了。
boosting、bagging、stacking的文章应该是要看的,Krogh和Vedelsby的文章是重要的。
Ditterich在AI Mag97的文章也值得读。由于ensemble learning的内涵并没有界定清楚,
所以涉及的东西太多,目前还远没有到能很清楚地把这个领域的知识系统化的程度。
机器学习、模式识别、信息融合等等都有大量有关的内容,现阶段很难开出一个清楚的
单子。但是不妨把最近几年top journal和top conference上的有关文章找来看看。
转 自 NJU baihe Daniel