新闻  |   论坛  |   博客  |   在线研讨会
哈佛大学教授详解:深度学习和经典统计学差异?(1)
数据派THU | 2022-11-20 18:49:32    阅读:188   发布文章

来源:pythonic生物人

深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素”。


图片

图源:https://twitter.com/YiMaTweets/status/1553913464183091200


深度学习(或一般的机器学习)经常被认为是简单的统计学,即它与统计学家研究的基本是相同的概念,但是使用与统计学不同的术语来描述。Rob Tibshirani 曾总结了下面这个有趣的“词汇表”:


图片


表中的某些内容是不是很能引起共鸣?事实上所有从事机器学习的人都清楚,Tibshiriani 发布的这张表中,右侧的许多术语在机器学习中已被广泛使用。


如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素。对深度学习更恰当的评价是:它使用统计学术语来描述完全不同的概念。


图片

对深度学习的恰当评价不是它用不同的词来描述旧的统计术语,而是它用这些术语来描述完全不同的过程

本文会解释为什么深度学习的基础其实不同于统计学,甚至不同于经典的机器学习。本文首先讨论模型拟合数据时的「解释(explanation)」任务和「预测(prediction)」任务之间的差异。接着讨论学习过程的两个场景:


1. 使用经验风险最小化拟合统计模型; 

2. 向学生传授数学技能。然后,文章又讨论了哪一个场景更接近深度学习的本质。


虽然深度学习的数学和代码与拟合统计模型几乎相同。但在更深层次上,深度学习更像是向学生传授数学技能这种场景。而且应该很少有人敢宣称:我掌握了完整的深度学习理论!其实是否存在这样的理论也是存疑的。相反深度学习的不同方面最好从不同的角度来理解,而仅仅从统计角度无法提供完整的蓝图。


本文对比了深度学习和统计学,这里的统计学特指的是“经典统计学”,因为它被研究得最久,并且在教科书中经久不衰。许多统计学家正在研究深度学习和非经典理论方法,就像 20 世纪物理学家需要扩展经典物理学的框架一样。事实上,模糊计算机科学家和统计学家之间的界限对双方都是有利的。


一、预测与模型拟合


一直以来,科学家们都是将模型计算结果与实际观测结果进行比较,以验证模型的准确性。埃及天文学家托勒密提出了关于行星运动的巧妙模型。托勒密的模型遵循地心说,但有一系列的本轮(见下图),使其具有极好的预测准确性。相比之下,哥白尼最初的日心说模型比托勒密模型简单,但在预测观察结果方面不太准确。(哥白尼后来添加了自己的本轮,以便能够与托勒密的模型媲美。)


图片


托勒密和哥白尼的模型都是无与伦比的。如果我们想通过 “黑盒” 进行预测,那么托勒密的地心模型更胜一筹。但如果你想要一个简单的模型,以便可以“观察模型内部”(这是解释恒星运动理论的起点),那么哥白尼的模型是不二选择。后来,开普勒将哥白尼的模型改进为椭圆轨道,并提出了开普勒行星运动三定律,这使得牛顿能够用适用于地球的引力定律来解释行星规律。


因此,重要的是,日心说模型不只是一个提供预测的“黑盒”,而是由几个简单的数学方程给出的,但是方程中的 “运动部分” 极少。多年来,天文学一直是发展统计技术的灵感来源。高斯和勒让德分别独立地在 1800 年左右发明了最小二乘回归,以预测小行星和其他天体的轨道。1847 年,柯西发明了梯度下降法,这也是由天文预测推动的。


在物理学中,有时学者们可以掌握全部细节,从而找到 “正确” 的理论,把预测准确性做到最优,并且对数据做出最好的解释。这些都在奥卡姆剃刀之类的观点范畴内,可以认为是假设简单性、预测能力和解释性都相互和谐一致的。


然而,在许多其它领域,解释和预测这两个目标之间的关系却没有那么和谐。如果只想预测观察结果,通过 “黑盒” 可能是最好的。另一方面,如果想获得解释性的信息,如因果模型、通用原则或重要特征,那么可以理解和解释的模型可能越简单越好。


模型的正确选择与否取决于其用途。例如,考虑一个包含许多个体的遗传表达和表型(例如某些疾病)的数据集,如果目标是预测一个人生病的几率,那么无论它有多复杂或依赖于多少个基因,都要使用适配该任务的最佳预测模型。相反,如果目的是识别一些基因,以便进行进一步研究,那么一个复杂的非常精确的 “黑盒” 的用处是有限的。


统计学家 Leo Breiman 在 2001 年关于统计建模的两种文化的著名文章中阐述了这一点。第一种是“数据建模文化”,侧重于能解释数据的简单生成模型。第二种是“算法建模文化”,对数据的生成方式不可知,侧重于寻找能够预测数据的模型,无论其多么复杂。


图片

文章链接:https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full


Breiman 认为,统计学过于受第一种文化的支配,这种关注造成两种问题:


  • 导致了不相关的理论和可疑的科学结论。

  • 阻止了统计学家研究令人兴奋的新问题。


Breiman 的论文一出,就引起了一些争议。同为统计学家的 Brad Efron 回应说,虽然他同意一些观点,但他也强调,Breiman 的论点似乎是反对节俭和科学见解,支持花大力气制造复杂的“黑盒”。但在最近的一篇文章中,Efron 摒弃了之前的观点,承认 Breima 更有先见之明,因为“21 世纪统计学的焦点都聚焦在预测算法上,在很大程度上沿着 Breiman 提出的路线演进”。



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客