新闻  |   论坛  |   博客  |   在线研讨会
深度学习三大谜团:集成、知识蒸馏和自蒸馏
数据派THU | 2021-02-05 11:48:24    阅读:1247   发布文章

集成(Ensemble,又称模型平均)是一种"古老"而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥有相同的架构,集成方法依然能够将性能显著提升。

但是,为什么只是简单的"集成”,便能提升性能呢?

1.png

目前已有的理论解释大多只能适用于以下几种情况:

(1)boosting:模型之间的组合系数是训练出来的,而不能简单地取平均;

(2)Bootstrap aggregation:每个模型的训练数据集都不相同;

(3)每个模型的类型和体系架构都不相同;

(4)随机特征或决策树的集合。

但正如上面提到,在(1)模型系数只是简单的求平均;(2)训练数据集完全相同;(3)每个模型架构完全相同 下,集成的方法都能够做到性能提升。

2.png

论文链接:

https://arxiv.org/pdf/2012.09816.pdf

来自微软研究院机器学习与优化组的高级研究员朱泽园博士,以及卡内基梅隆大学机器学习系助理教授李远志针对这一现象,在最新发表的论文《在深度学习中理解集成,知识蒸馏和自蒸馏》(Towards Understanding Ensemble, Knowledge Distillation, and Self-Distillation in Deep Learning)中,提出了一个理论问题:

3.png

当我们简单地对几个独立训练的神经网络求平均值时,“集成”是如何改善深度学习的测试性能的?尤其是当所有神经网络具有相同的体系结构,使用相同的标准训练算法(即具有相同学习率和样本正则化的随机梯度下降),在相同数据集上进行训练时,即使所有单个模型都已经进行了100%训练准确性?随后,将集合的这种优越性能“蒸馏”到相同架构的单个神经网络,为何能够保持性能基本不变?

两位作者分别从理论和实验的角度给出了分析结果:

原因在于数据集中“多视图”(Multi-view)数据的存在。

朱泽园(Zeyuan Allen-Zhu)

朱泽园博士目前就职于微软总部 AI 研究院。南京外国语毕业,高一保送清华;2005、2006两年蝉联IOI金牌,2009年ACM总决赛亚军;清华毕业后在MIT读完硕博,后在普林斯顿进修博士后。

4.png

李远志(Yuanzhi Li)

另一位作者李远志,现任美国卡内基·梅隆大学(CMU)机器学习系助理教授,也是微软研究院的访问研究员。他于2010年到2014年在清华姚班进行本科学习,于2018年在普林斯顿大学获得博士学位,在斯坦福大学做了一年博士后之后,加入CMU担任助理教授。其研究方向主要为深度学习的基础理论与实践,凸优化算法与非凸优化算法设计,数据处理算法分析等。

5.png

1、深度学习的三大谜团

谜团 1:集成

观察结果显示,使用不同随机种子的学习网络

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客